2010-02-11 1 views
2

Je veux faire l'analyse du journal d'énormes quantités de données et recueillir des informations analytiques. Cependant, toutes les données proviennent de sources externes et je n'ai que 2 machines à stocker - une comme sauvegarde/réplication. J'essaie d'utiliser Hadoop, Lucene ... pour accomplir cela. Mais, tous les docs de formation mentionnent que Hadoop est utile pour le traitement distribué, multi-nœuds. Ma configuration ne correspond pas à cette architecture. Y a-t-il des frais généraux avec l'utilisation de Hadoop avec seulement 2 machines? Si Hadoop n'est pas un bon choix, existe-t-il des alternatives? Nous avons regardé Splunk, nous l'aimons, mais c'est cher pour nous d'acheter. Nous voulons juste construire les nôtres. Hadoop doit être utilisé pour les problèmes de traitement par lot distribué.Hadoop: Inconvénients d'utiliser seulement 2 machines?

Répondre

0

5-common-questions-about-hadoop

L'analyse des fichiers journaux est l'une des utilisations les plus courantes de Hadoop, l'une des tâches Facebook pour utiliser.

Si vous avez deux machines, vous avez par définition un cluster multi-nœuds. Vous pouvez utiliser Hadoop sur une seule machine si vous le souhaitez, mais lorsque vous ajoutez plusieurs noeuds, le temps nécessaire pour traiter la même quantité de données est réduit.

Vous dites que vous avez d'énormes quantités de données? Ce sont des chiffres importants à comprendre. Personnellement quand je pense énorme en termes de données, je pense dans la gamme des 100 téraoctets +. Si c'est le cas, vous aurez probablement besoin de plus de deux machines, surtout si vous voulez utiliser la réplication sur le système HDFS.

Les informations analytiques que vous souhaitez rassembler? Avez-vous déterminé qu'il est possible de répondre à ces questions en utilisant l'approche MapReduce?

Quelque chose que vous pourriez envisager serait d'utiliser Hadoop sur Amazons EC2 si vous avez une quantité limitée de ressources matérielles. Voici quelques liens pour vous aider à démarrer:

+0

Merci. Pour les prochaines années, nous pourrions ne pas avoir plus de 5 téraoctets. J'ai un peu d'apprendre à faire ... notre idée est d'utiliser map-reduce pour répondre aux questions analytiques comme les données de connexion de l'utilisateur, les taux de défaillance du serveur, etc. informations générales recueillies à partir de journaux. J'ai lu l'implémentation de Rackspace de l'analyse de journaux distribués en utilisant hadoop et donc j'essaie de tester cela. – neblinc1

+0

Donc, si vous avez 5 téraoctets, et que vous utilisez un facteur de réplication de 2, vous devez vous assurer d'avoir 5 To sur chaque machine pour les données et un peu plus de TB pour la sortie de vos travaux MapReduce. Je voudrais vérifier le livre: Hadoop: The Definitive Guide, par Tom White. C'est une bonne ressource. –