Je vais largement diviser le travail à faire en deux parties:Distcp avec Hadoop le streaming emploi
J'ai d'énormes données (montant à environ 1 To, divisé en centaines de fichiers), que je » m copie de S3 à HDFS via distcp
Ces données seront traitées par un travail en continu Hadoop (simple cartographe et réducteur, écrit en python)
maintenant, je vais devoir attendre jusqu'à ce que toutes les données sont co pied à HDFS
et seulement après que je peux commencer mon travail actuel. Voici la question: Considérant que DISTCP
en soi est un travail de réduction de la carte, existe-t-il un moyen de "streamer" ces deux tâches, à savoir, le deuxième travail peut-il commencer à travailler sur les données déjà copiées (par exemple distcp
déjà copié quelques fichiers, sur lesquels le deuxième travail peut déjà techniquement commencer)?
J'espère avoir été clair.