Traitement du flux en direct des journaux à partir du serveur Web à l'aide de Hadoop

Je souhaite traiter les journaux de mon serveur Web en utilisant Hadoop (Amazon Elastic mapreduce). J'ai cherché de l'aide mais rien d'utile. Je voudrais savoir si cela peut être fait ou existe-t-il un moyen alternatif de le faire?Traitement du flux en direct des journaux à partir du serveur Web à l'aide de Hadoop

Source

2010-03-02 user144390

Hadoop est généralement utilisé hors connexion. Donc, je préfère traiter les journaux périodiquement.

Dans un projet auquel je participais précédemment, nous avons demandé à nos serveurs de produire des fichiers journaux qui étaient pivotés toutes les heures (toutes les heures à x: 00). Nous avions un script qui fonctionnait toutes les heures (toutes les heures à x: 30) et téléchargeait les fichiers dans HDFS (ceux qui n'étaient pas déjà là). Vous pouvez ensuite exécuter des tâches aussi souvent que vous le souhaitez dans Hadoop pour traiter ces fichiers. Je suis sûr qu'il existe également de meilleures alternatives en temps réel.

Source

2010-03-08 20:09:51 mojbro

Hadoop n'est pas utilisé pour le traitement en direct en temps réel. Mais il peut être utilisé pour traiter les journaux sur une base horaire peut être une heure de retard, ce qui est proche du temps réel. Je me demande quel est le besoin de traiter les journaux comme il vient.

Source

2010-07-11 04:18:14

Quelque chose que vous pouvez essayer d'utiliser Flume comme un collecteur de journal et de les stocker dans S3 pour le traitement par lots:

http://www.cloudera.com/blog/2011/02/distributed-flume-setup-with-an-s3-sink/

Source

2012-06-26 20:02:35

Si vous voulez un véritable traitement en temps réel, vous voudrez peut-être regarder Twitter's Storm , qui est open-source et hébergé sur GitHub. Tutorial here. Il semble que ce soit used in production dans les grandes entreprises.

Sur cette note, je ne l'utilise moi-même tempête, et fait faire quelque chose de semblable à ce qui a été mentionné dans la question et les réponses:

événements du journal à l'aide de Apache (en utilisant rotatelogs pour changer les fichiers journaux toutes les 15/30 minutes)
les télécharger tous les si souvent S3
Ajouter une nouvelle étape à un cluster Hadoop existant (sur Amazon EMR)

Avec Hadoop, vous pouvez obtenir près de r eal-time en exécutant le traitement par lots souvent sur un cluster et en ajoutant simplement un nouveau travail, mais pas vrai temps réel. Pour cela, vous avez besoin de tempête ou quelque chose de similaire.

Source

2012-07-18 15:07:01 Suman

Traitement du flux en direct des journaux à partir du serveur Web à l'aide de Hadoop

Répondre

Questions connexes