Je souhaite traiter les journaux de mon serveur Web en utilisant Hadoop (Amazon Elastic mapreduce). J'ai cherché de l'aide mais rien d'utile. Je voudrais savoir si cela peut être fait ou existe-t-il un moyen alternatif de le faire?Traitement du flux en direct des journaux à partir du serveur Web à l'aide de Hadoop
Répondre
Hadoop est généralement utilisé hors connexion. Donc, je préfère traiter les journaux périodiquement.
Dans un projet auquel je participais précédemment, nous avons demandé à nos serveurs de produire des fichiers journaux qui étaient pivotés toutes les heures (toutes les heures à x: 00). Nous avions un script qui fonctionnait toutes les heures (toutes les heures à x: 30) et téléchargeait les fichiers dans HDFS (ceux qui n'étaient pas déjà là). Vous pouvez ensuite exécuter des tâches aussi souvent que vous le souhaitez dans Hadoop pour traiter ces fichiers. Je suis sûr qu'il existe également de meilleures alternatives en temps réel.
Hadoop n'est pas utilisé pour le traitement en direct en temps réel. Mais il peut être utilisé pour traiter les journaux sur une base horaire peut être une heure de retard, ce qui est proche du temps réel. Je me demande quel est le besoin de traiter les journaux comme il vient.
Quelque chose que vous pouvez essayer d'utiliser Flume comme un collecteur de journal et de les stocker dans S3 pour le traitement par lots:
http://www.cloudera.com/blog/2011/02/distributed-flume-setup-with-an-s3-sink/
Si vous voulez un véritable traitement en temps réel, vous voudrez peut-être regarder Twitter's Storm , qui est open-source et hébergé sur GitHub. Tutorial here. Il semble que ce soit used in production dans les grandes entreprises.
Sur cette note, je ne l'utilise moi-même tempête, et fait faire quelque chose de semblable à ce qui a été mentionné dans la question et les réponses:
- événements du journal à l'aide de Apache (en utilisant rotatelogs pour changer les fichiers journaux toutes les 15/30 minutes)
- les télécharger tous les si souvent S3
- Ajouter une nouvelle étape à un cluster Hadoop existant (sur Amazon EMR)
Avec Hadoop, vous pouvez obtenir près de r eal-time en exécutant le traitement par lots souvent sur un cluster et en ajoutant simplement un nouveau travail, mais pas vrai temps réel. Pour cela, vous avez besoin de tempête ou quelque chose de similaire.
- 1. Lecture d'image à partir du serveur Web en proxy C#
- 2. Journaux du serveur d'applications
- 3. Dans Android, comment diffuser des vidéos en direct à partir de flux en direct?
- 4. En cours de traitement du serveur Web pour MVC2
- 5. Traitement d'image Python d'image directement à partir du web
- 6. Utilisation du Web des employés à partir des journaux de proxy
- 7. Flux vidéo en direct Web cam aggregator
- 8. Comment diffuser des vidéos à partir du serveur Web dans Silverlight à l'aide du contrôle ExpressionMediaPlayer?
- 9. Suivi du statut du travail Hadoop via l'interface Web? (Exposer Hadoop aux clients internes de l'entreprise)
- 10. Zend_Http_Client - Lire à partir du flux?
- 11. Traitement du flux web plusieurs fois par jour
- 12. Est-il possible de récupérer des images en tant qu'images à partir du flux en direct FMS?
- 13. Traitement rapide des journaux apache
- 14. Mise à jour du site en direct à partir du bouton?
- 15. SQL Server: importer XML à partir du serveur Web?
- 16. C# FMOD en cours de lecture à partir du flux
- 17. Démarrer le processus à partir du flux
- 18. Charger un fichier à partir du navigateur, sans serveur web
- 19. Remplir BaseAdapter à partir du Web
- 20. Connexion DB à partir du serveur Web Sun
- 21. créer un site sharepoint à partir du serveur web clearQuest
- 22. Connaissez-vous les outils de traitement des journaux de lots pour hadoop (alternatives zohmg)?
- 23. Diffusion audio et vidéo à partir du serveur web
- 24. Récupération de données à partir du serveur
- 25. Extraction du timecode SMPTE à partir du flux audio
- 26. Récupération d'une image à partir du serveur
- 27. Chargement du code XML à partir du service Web
- 28. Récupération des journaux IIS à partir d'Azure
- 29. asp.net - comment télécharger des fichiers à partir du serveur
- 30. Téléchargement à partir du bureau plus rapide que l'Internet direct?