2010-07-28 13 views
0

Je voudrais savoir comment récupérer des données à partir de journaux agrégés? Voilà ce que j'ai:
- au sujet de tous les jours de 30 Go de données du journal non compressées chargées dans HDFS (et cela se développera bientôt à environ 100 Go)
Voici mon idée:
- chaque soir ces données sont traitées avec Pig
- les journaux sont lus, fendus et personnalisée UDF récupère les données comme: timestamp, url, user_id (permet de dire, c'est tout ce que je dois)
- d'entrée du journal et des charges ceci dans HBase (log les données seront stockées à l'infini)Récupérer des informations à partir de données de weblogs agrégées, comment le faire?

Ensuite, si je veux savoir quels utilisateurs ont vu une page particulière dans un intervalle de temps donné, je peux rapidement interroger HBase sans ole journal des données avec chaque requête (et je veux des réponses rapides - les minutes sont acceptables). Et il y aura plusieurs requêtes simultanées.

Que pensez-vous de ce flux de travail? Pensez-vous que charger cette information dans HBase aurait du sens? Quelles sont les autres options et comment se comparent-elles à ma solution? J'apprécie tous les commentaires/questions et réponses. Merci d'avance.

Répondre

0

Avec Hadoop, vous faites toujours l'une des deux choses (traitement ou interrogation).

Pour ce que vous cherchez, je vous suggère d'utiliser HIVE http://hadoop.apache.org/hive/. Vous pouvez prendre vos données et ensuite créer un travail M/R pour traiter et pousser ces données comme vous le souhaitez dans les tables HIVE. De là (vous pouvez même partitionner sur les données comme il serait approprié pour la vitesse de ne pas regarder les données non requises comme vous le dites). De là, vous pouvez interroger vos résultats de données comme vous le souhaitez. Voici un très bon didacticiel en ligne

Il existe de nombreux moyens de résoudre ce problème, mais il semble que HBase soit un peu exagéré, à moins que vous ne souhaitiez configurer tous les serveurs nécessaires pour l'exécuter. HBase serait bon si vous avez des milliers de personnes qui cherchent simultanément à obtenir l'information.

Vous pouvez également consulter FLUME qui est le nouveau serveur d'importation de Cloudera. Je vais obtenir vos fichiers d'un endroit directement à HDFS http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/

+0

Je suis familier avec Hive, et l'ai utilisé pour l'interrogation, mais c'est vraiment trop lent. Analyser un mois de logs (jusqu'à 3 To) prendra environ 2 à 3 heures sur mon matériel actuel, et je veux avoir des résultats en quelques minutes (10 minutes au maximum). J'utilise Hive ou Pig en ce moment pour faire des requêtes ad hoc (puisque je n'ai rien d'autre), mais je cherche d'autres solutions ou idées. – wlk

Questions connexes