Je suis nouveau à hadoop et essaie de traiter wikipedia dump. C'est un fichier xml compressé gzip de 6,7 Go. J'ai lu que hadoop supporte les fichiers compressés gzip mais ne peut être traité que par mapper sur un seul travail car un seul mappeur peut le décompresser. Cela semble mettre une limite au traitement. Y a-t-il une alternative? comme décompresser et diviser le fichier xml en plusieurs morceaux et les recompresser avec gzip.Hadoop gzip fichiers compressés
Je lis sur le gzip Hadoop de http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
Merci pour votre aide.
Ne pas nous avons aussi besoin de maintenir l'intégrité du fichier xml pour chaque groupe? – root1982
Oui, et c'est la tâche de l'instance RecordReader utilisée. –
Cela est vrai pour un gzipping de fichiers complet, mais Hadoop peut utiliser le gzipping de blocs pour contourner ce problème. Voir la réponse de Ted. – jhclark