J'ai un grand nombre de fichiers texte dans un répertoire S3. Pour chaque fichier texte, je souhaite appliquer une fonction (un exécutable chargé par l'amorçage) puis écrire les résultats dans un autre fichier texte portant le même nom dans un répertoire de sortie de S3. Il n'y a donc pas d'étape de réduction évidente dans mon travail MapReduce.Traitement de fichiers avec Elastic MapReduce - Pas d'étape de réduction?
J'ai essayé d'utiliser NONE comme mon réducteur, mais le répertoire de sortie se remplit avec des fichiers comme partie-00000, partie-00001, etc. Et il y en a plus que des fichiers dans mon répertoire d'entrée; chaque partie-fichier représente seulement un fragment traité.
Un conseil est apprécié.
Merci pour votre aide, tout le monde. J'ai trouvé une autre réponse à cette question dans la FAQ Hadoop Streaming: http://hadoop.apache.org/common/docs/current/streaming.html#How+do+I+process+files%2C+one+per + carte% 3F – 345871345