Je voudrais savoir comment récupérer des données à partir de journaux agrégés? Voilà ce que j'ai:
- au sujet de tous les jours de 30 Go de données du journal non compressées chargées dans HDFS (et cela se développera bientôt à environ 100 Go)
Voici mon idée:
- chaque soir ces données sont traitées avec Pig
- les journaux sont lus, fendus et personnalisée UDF récupère les données comme: timestamp
, url
, user_id
(permet de dire, c'est tout ce que je dois)
- d'entrée du journal et des charges ceci dans HBase (log les données seront stockées à l'infini)Récupérer des informations à partir de données de weblogs agrégées, comment le faire?
Ensuite, si je veux savoir quels utilisateurs ont vu une page particulière dans un intervalle de temps donné, je peux rapidement interroger HBase sans ole journal des données avec chaque requête (et je veux des réponses rapides - les minutes sont acceptables). Et il y aura plusieurs requêtes simultanées.
Que pensez-vous de ce flux de travail? Pensez-vous que charger cette information dans HBase aurait du sens? Quelles sont les autres options et comment se comparent-elles à ma solution? J'apprécie tous les commentaires/questions et réponses. Merci d'avance.
Je suis familier avec Hive, et l'ai utilisé pour l'interrogation, mais c'est vraiment trop lent. Analyser un mois de logs (jusqu'à 3 To) prendra environ 2 à 3 heures sur mon matériel actuel, et je veux avoir des résultats en quelques minutes (10 minutes au maximum). J'utilise Hive ou Pig en ce moment pour faire des requêtes ad hoc (puisque je n'ai rien d'autre), mais je cherche d'autres solutions ou idées. – wlk