J'ai un tas de petits fichiers texte (1KB à 1MB) stockés dans Amazon S3 que je voudrais traiter en utilisant Hadoop d'Amazon EMR.EMR Hadoop traitement fichier S3 entier
Chaque enregistrement donné au mappeur doit contenir tout le contenu d'un fichier texte ainsi qu'un moyen de déterminer le nom de fichier, donc je ne peux pas utiliser le TextInputFormat par défaut.
Quelle est la meilleure façon d'y parvenir? Y a-t-il autre chose que je puisse faire (comme copier des fichiers de S3 vers hdfs) pour augmenter les performances?