2017-07-19 2 views

Répondre

0

La configuration de l'infrastructure de votre cluster serait déterminée par l'analyse de rentabilisation pour laquelle vous construisez le cluster qui se traduirait à son tour par l'exigence de traitement des données que le cluster doit satisfaire pour atteindre le résultat métier. En général, le système hadoop a été initialement conçu avec la notion qu'il y aurait des machines avec une configuration hétérogène dans un cluster. (Maintenant, les fournisseurs de serveurs ont des machines optimisées pour la charge de travail hadoop, avec une certaine variabilité de taille de disque entre les maîtres et les esclaves).

Pour répondre à vos questions en particulier, j'ai vu dans certains sites de cluster avec jusqu'à 50 nœuds avec exactement la même configuration pour les maîtres et les esclaves (que je pensais être un peu trop tuer). Des décisions de conception architecturale souvent silencieuses ne déterminent pas toujours les décisions d'achat.

Les liens suivants de 3 grands fournisseurs de distribution Hadoop serait un bon point de départ pour comprendre plus sur les paramètres spécifiques de conception de cluster et d'appliquer le site (c.-à des besoins de traitement des données, la croissance des données, la conservation des données, replication..etc):

Hortonworks:

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.5/bk_cluster-planning/bk_cluster-planning.pdf

Cloudera:

https://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/

MAPR:

http://doc.mapr.com/display/MapR/Planning+Cluster+Hardware

+0

Merci @ Kfactor21 pour votre réponse intéressante. Nous avons quelques problèmes dans le traitement des travaux sur Yarn (de temps en temps, un travail arrête toute l'excusion d'applications sur Yarn), et nous pensons que cela est dû aux différences de ressources qui vont de quelques nœuds à d'autres. En outre, nous utilisons le RM et NM sur la même machine, pensez-vous que ce soit la raison de ce problème, car les travaux concernés étaient en cours d'exécution dans ce nœud? –

+0

Salut @AymanAnikad, je vous conseille d'ouvrir une nouvelle question avec le problème que vous rencontrez. Vous avez une meilleure chance d'obtenir de l'aide de la communauté. Sans informations sur votre cluster, il est difficile de dire quel pourrait être le problème. Veuillez indiquer au moins les éléments suivants dans votre question: Détails de l'environnement (Hadoop Distribution, Détails de l'infrastructure (MasterNodes/Datanodes et détails CPU/RAM/DISK respectifs)/Configurations de mémoire YARN, tailles de conteneur, Nom Node Taille du tas), HDFS . Journaux de travail du gestionnaire de ressources, journal YARN, au moins des sections autour de l'erreur. – Kfactor21

+0

C'est bon. Je le ferai. Merci pour vos recommandations :) –