2011-01-31 5 views
2

Je suis intéressant - ce qui peut être considéré comme un bon débit pour le traitement de données de texte léger hadoop par nœud?
Pour être plus précis, je demanderais: Disons que je dois lire les fichiers CSV, les analyser et compter le nombre de valeurs spécifiques dans une colonne. Supposons que les valeurs sont rares, donc l'étape de réduction est rapide.
À quel débit puis-je m'attendre par nœud hadoop à partir des processeurs modernes à quatre cœurs/4 Go de RAM/4 disques SATA?Hadoop MapReduce débit question

+0

Je pense qu'il est presque impossible de répondre à cette question car la mise en œuvre exacte, la source de données et la configuration auront un impact énorme sur les résultats. –

+1

Je comprends que ce n'est pas une réponse exacte. Mais au moins l'ordre de grandeur devrait être connu (IMHO). Pour la solution basée sur RDBMS, je peux prendre TPCH Q1 (par exemple) et voir le throupput. Je voudrais comprendre - est-il 1 Mo/sec, 10 Mo/sec, 100 ou 300 Mo/sec. Il est important de savoir quand je planifie la solution et de savoir combien de machines le client doit acheter. –

+0

@David Gruzman: pourquoi ne pas le tester sur un PC «grognon»? –

Répondre

1

Je trouve la question raisonnable. Je reçois une impression d'un amas de Hadoop Débit du avec

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks 

Pour le yahoo PB-Sort qui fonctionnent sur 3800 nœuds avec du matériel de base (2 disques par nœud), si simple expression est évaluée à: 2,24 Mo/(s et le disque).

Pour les travaux liés à l'E/S (recherche de tests DFSIO), vous trouverez des clusters d'environ 20 Mo/(s et disque).

Je pense que vous ne trouverez pas de cluster hadoop avec du matériel de base pour le moment, qui a beaucoup plus de 20 Mo/s (et disque) sur les travaux liés aux E/S. Mais j'ai peut-être tort.

+0

Il est intéressant de savoir où vont les 2/3 du débit du disque ... –

+0

Bon article sur les maths derrière les clusters: http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje

Questions connexes