J'utilise un pipeline mapreduce élastique qui utilise la sortie de plusieurs scripts cochons. Essentiellement, la sortie d'un script cochon est stockée à un certain endroit sur S3, et puisque la taille des données est énorme, les fichiers de sortie créés sont nommés comme partie-xxxxx. Maintenant, mon problème est que l'une des étapes de mon pipeline est de copier le contenu à partir de deux endroits différents et de les assembler, puis de faire le traitement sur toute cette collection. Maintenant que les fichiers des deux emplacements portent le même nom (partie 00000 à partie 00342), mes fichiers sont remplacés pendant le processus de copie. Par défaut, cochon génère mes fichiers de sortie à un emplacement donné avec un tel format pour le nom de fichier. Au départ, j'avais l'habitude de télécharger les fichiers de sortie de cochon sur mon disque, d'écrire un programme python pour les renommer et de les télécharger sur S3. Je ne peux pas le faire maintenant en raison de la quantité de données.Pig: modification du format du fichier de sortie NAME
Je ne possède pas les étapes de pipeline qui font réellement cette copie. Tout ce que j'ai le contrôle (peut-être), c'est le nom des fichiers copiés). J'ai donc besoin de savoir s'il y a un moyen pour moi d'attacher un préfixe aux noms des fichiers de pièces créés par pig.
Merci