Je suis intéressant - ce qui peut être considéré comme un bon débit pour le traitement de données de texte léger hadoop par nœud?
Pour être plus précis, je demanderais: Disons que je dois lire les fichiers CSV, les analyser et compter le nombre de valeurs spécifiques dans une colonne. Supposons que les valeurs sont rares, donc l'étape de réduction est rapide.
À quel débit puis-je m'attendre par nœud hadoop à partir des processeurs modernes à quatre cœurs/4 Go de RAM/4 disques SATA?Hadoop MapReduce débit question
Répondre
Je trouve la question raisonnable. Je reçois une impression d'un amas de Hadoop Débit du avec
(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks
Pour le yahoo PB-Sort qui fonctionnent sur 3800 nœuds avec du matériel de base (2 disques par nœud), si simple expression est évaluée à: 2,24 Mo/(s et le disque).
Pour les travaux liés à l'E/S (recherche de tests DFSIO), vous trouverez des clusters d'environ 20 Mo/(s et disque).
Je pense que vous ne trouverez pas de cluster hadoop avec du matériel de base pour le moment, qui a beaucoup plus de 20 Mo/s (et disque) sur les travaux liés aux E/S. Mais j'ai peut-être tort.
Il est intéressant de savoir où vont les 2/3 du débit du disque ... –
Bon article sur les maths derrière les clusters: http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje
- 1. combinateur hadoop hbase mapreduce
- 2. Hadoop Mapreduce ClassNotFoundException
- 3. Hadoop: Performance itérative MapReduce
- 4. Sortie intermédiaire Hadoop MapReduce
- 5. Hadoop et MapReduce
- 6. Erreur dans Hadoop MapReduce
- 7. Hadoop MapReduce InputFormat obsolète?
- 8. hadoop-mapreduce réducteur-combinateur entrée
- 9. Traitement d'image avec Hadoop MapReduce
- 10. Hadoop MapReduce Mongo montrant erreur
- 11. Premiers pas avec MapReduce/Hadoop
- 12. Hadoop ou Hadoop Streaming pour MapReduce sur AWS
- 13. Comment démarrer avec MapReduce en utilisant Hadoop?
- 14. Quand exactement Pig utilise l'environnement Hadoop MapReduce?
- 15. emplois de chaînage mapreduce dans hadoop
- 16. Eclipse hadoop mapreduce plugin ne fonctionne pas?
- 17. meilleure façon d'échantillonnage dans Hadoop MapReduce
- 18. Idée de projet avec Hadoop MapReduce
- 19. Hadoop erreur de streaming, MapReduce avec python
- 20. Chaînage Hadoop MapReduce avec Pipes (C++)
- 21. Hadoop eclipse mapreduce ne fonctionne pas?
- 22. MapReduce avec Hadoop: incompatibilité de type
- 23. Hadoop MapReduce avec des fichiers déjà triés
- 24. javascript hadoop mapreduce implémentation de comptage simultané
- 25. Trouver des lignes correspondantes avec Hadoop/MapReduce
- 26. Séparer les fichiers de sortie dans hadoop mapreduce
- 27. Objets de la mémoire en entrée pour Hadoop/MapReduce?
- 28. Collecter et afficher les résumés Hadoop MapReduce dans ASP.NET MVC?
- 29. Lecture par programme de la sortie du programme Hadoop Mapreduce
- 30. Algorithme de coefficients de regroupement local distribué (MapReduce/Hadoop)
Je pense qu'il est presque impossible de répondre à cette question car la mise en œuvre exacte, la source de données et la configuration auront un impact énorme sur les résultats. –
Je comprends que ce n'est pas une réponse exacte. Mais au moins l'ordre de grandeur devrait être connu (IMHO). Pour la solution basée sur RDBMS, je peux prendre TPCH Q1 (par exemple) et voir le throupput. Je voudrais comprendre - est-il 1 Mo/sec, 10 Mo/sec, 100 ou 300 Mo/sec. Il est important de savoir quand je planifie la solution et de savoir combien de machines le client doit acheter. –
@David Gruzman: pourquoi ne pas le tester sur un PC «grognon»? –