Hadoop MapReduce débit question

Je suis intéressant - ce qui peut être considéré comme un bon débit pour le traitement de données de texte léger hadoop par nœud?
Pour être plus précis, je demanderais: Disons que je dois lire les fichiers CSV, les analyser et compter le nombre de valeurs spécifiques dans une colonne. Supposons que les valeurs sont rares, donc l'étape de réduction est rapide.
À quel débit puis-je m'attendre par nœud hadoop à partir des processeurs modernes à quatre cœurs/4 Go de RAM/4 disques SATA?Hadoop MapReduce débit question

Source

2011-01-31 David Gruzman

Je pense qu'il est presque impossible de répondre à cette question car la mise en œuvre exacte, la source de données et la configuration auront un impact énorme sur les résultats. –

Je comprends que ce n'est pas une réponse exacte. Mais au moins l'ordre de grandeur devrait être connu (IMHO). Pour la solution basée sur RDBMS, je peux prendre TPCH Q1 (par exemple) et voir le throupput. Je voudrais comprendre - est-il 1 Mo/sec, 10 Mo/sec, 100 ou 300 Mo/sec. Il est important de savoir quand je planifie la solution et de savoir combien de machines le client doit acheter. –

@David Gruzman: pourquoi ne pas le tester sur un PC «grognon»? –

Je trouve la question raisonnable. Je reçois une impression d'un amas de Hadoop Débit du avec

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks

Pour le yahoo PB-Sort qui fonctionnent sur 3800 nœuds avec du matériel de base (2 disques par nœud), si simple expression est évaluée à: 2,24 Mo/(s et le disque).

Pour les travaux liés à l'E/S (recherche de tests DFSIO), vous trouverez des clusters d'environ 20 Mo/(s et disque).

Je pense que vous ne trouverez pas de cluster hadoop avec du matériel de base pour le moment, qui a beaucoup plus de 20 Mo/s (et disque) sur les travaux liés aux E/S. Mais j'ai peut-être tort.

Source

2012-06-11 15:52:52 hoffmaje

Il est intéressant de savoir où vont les 2/3 du débit du disque ... –

Bon article sur les maths derrière les clusters: http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje

Hadoop MapReduce débit question

Répondre

Questions connexes