Étant donné que j'ai besoin de traiter une entrée de 20 Go en utilisant 10 instances. Est-il différent d'avoir 10 fichiers d'entrée de 2 Go comparer à 4 fichiers d'entrée de 5 Go? Dans ce dernier cas, Amazon Elastic MapReduce peut-il distribuer automatiquement la charge de 4 fichiers d'entrée sur 10 instances? (J'utilise la méthode Streaming lorsque mon mapper est écrit en utilisant ruby)Amazon Elastic Map Réduire: La taille des fragments d'entrée est-elle importante?
0
A
Répondre
3
La seule chose qui compte est de savoir si les fichiers sont divisibles.
Si les fichiers sont décompressés en texte brut ou compressés avec lzo, Hadoop triera le découpage.
fichiers x5 2gb entraînera ~ 100 divisions et donc ~ 100 tâches de carte (10GB/128mb (DME Blocksize) ~ = 100)
x10 fichiers 1gb entraînera encore ~ 100 divisions et donc, encore une fois, 100 tâches de carte. Si les fichiers sont compressés avec gzip ou bzip2, Hadoop (au moins, la version exécutée sur EMR) ne divisera pas les fichiers.
x5 fichiers 2gb entraînera seulement 5 divisions (et encore d'où seulement 5 tâches de carte)
x10 fichiers 1Go résultat en 10 divisions (et encore d'où seulement 10 tâches de carte)
Mat
Questions connexes
- 1. AWS Elastic Map Réduire: sortie vers SimpleDB
- 2. Elastic Map Réduire: différence entre CANCEL_AND_WAIT et CONTINUE?
- 3. Hadoop/Elastic Map Réduire avec un exécutable binaire?
- 4. Amazon Elastic Map Réduire: Liste des flux de travaux dans les outils de ligne de commande Problème?
- 5. Amazon AWS Ec2 + Elastic IP
- 6. Amazon Auto Scaling Service peut-il fonctionner avec Elastic Map Reduce Service?
- 7. Réutiliser Amazon Elastic MapReduce exemple
- 8. Map Réduire le travail sur Amazon: argument pour jar personnalisé
- 9. Amazon Elastic MapReduce - Format ou Exemples pour la carte python et réduire le code
- 10. Réduire la taille des textures
- 11. Déploiement Amazon Elastic Cloud et Silverlight
- 12. Exécution d'un brique MapReduce personnalisé dans Amazon Elastic Map Réduction par rapport aux données d'Amazon DynamoDB
- 13. Numpy et Scipy avec Amazon Elastic MapReduce
- 14. Elastic Map Réduire l'exportation JSON vers l'erreur DynamoDB AttributeValue ne doit pas contenir de chaîne vide
- 15. Amazon Elastic MapReduce: Exception de FileSystem
- 16. Vala: réduire la taille des dépendances
- 17. Réduire la taille des polices .ttf
- 18. Font-taille est écrasée même importante
- 19. Map Réduire l'aide dans MongoDB
- 20. Comment puis-je utiliser Hive avec Amazon Elastic Mapreduce pour traiter des données dans Amazon Simple DB?
- 21. comment réduire la taille UIImage ...?
- 22. Réduire la taille de EditField
- 23. Réduire la taille Image C#
- 24. Réduire la taille du clic()
- 25. Configuration pour le compartiment Amazon S3 pour la vignette dans le transcodeur Amazon Elastic
- 26. Map Réduire le cache distribué
- 27. MongoDB Group by/Map réduire
- 28. doctrine mongodb odm map réduire
- 29. Amazon Elastic Beanstalk - Obtenir l'adresse IP du visiteur (python)
- 30. Lié à la vitesse d'exécution de Job dans Amazon Elastic Mapreduce
Donc, la scission est basée sur le saut de ligne, n'est-ce pas? –
Vous vous demandez toujours comment ce split s'adapte à la façon dont fonctionne l'API de flux ... –
taille de la partition, en termes de mapred.max.split.size est basé sur des octets, pas des lignes. Si vous utilisez NLineInputFormat, vous pouvez spécifier "splits" en termes de nombre de lignes en utilisant mapred.line.input.format.linespermap. voir http://www.scribd.com/doc/23046928/Hadoop-Performance-Tuning pour plus d'informations –