Je suis novice très à Hadoop et incapable de comprendre le concept bien, je l'avais suivi ci-dessous processusComment traiter un fichier journal apache avec Hadoop en utilisant python
installé Hadoop en voyant here
Essayé les exemples de base dans le tutoriel en voyant here et Wccount exemple en python et fonctionne très bien avec eux.
En fait ce que je suis en train de faire/l'exigence que je suis arrivé est le traitement d'un fichier journal apache dans fedora (linux) situé à /var/log/httpd
avec Hadoop en utilisant python dans le format ci-dessous
IP address Count of IP Pages accessed by IP address
Je sais que les fichiers journaux apache seront de deux types
access_logs
error_logs
mais je suis vraiment incapable de comprendre le format des fichiers journaux apache.
Mon contenu du fichier journal apache est quelque chose comme ci-dessous
::1 - - [29/Oct/2012:15:20:15 +0530] "GET /phpMyAdmin/ HTTP/1.1" 200 6961 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/cross_framing_protection.js?ts=1336063073 HTTP/1.1" 200 331 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/jquery/jquery-1.6.2.js?ts=1336063073 HTTP/1.1" 200 92285 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
Quelqu'un peut-il s'il vous plaît me expliquer la structure des fichiers journaux ci-dessus/apache
Je suis confus sur la façon de traiter le fichier journal avec le adresse Ip de données, countof adresse IP, pages accédées par l'adresse IP
Quelqu'un peut-il me faire savoir comment nous pouvons traiter les fichiers journaux apache avec haddop en utilisant les informations python et ci-dessus et stocker le résultat dans le format mentionné ci-dessus
Quelqu'un peut-il également fournir un code de base en python pour traiter les fichiers journaux apache dans le format ci-dessus, afin que je puisse avoir une idée en temps réel du traitement des fichiers avec le code python