Logs Tcpdumps sont des fichiers binaires, je veux savoir quel FileInputFormat de hadoop je devrais utiliser pour split morceaux les données d'entrée ... s'il vous plaît aidez-moi !!Comment puis-je utiliser les journaux d'entrée .PCAP (Binary) avec Map Rreduce Hadoop
Répondre
Il y avait un fil sur la liste des utilisateurs à ce sujet: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward
Fondamentalement, le format n'est pas divisible que vous ne pouvez pas trouver un début d'un enregistrement à partir d'un décalage arbitraire dans le fichier. Vous devez donc effectuer un pré-traitement, en insérant des points de synchronisation ou quelque chose de similaire. Peut-être convertir des fichiers plus petits en séquences, puis fusionner les petits fichiers de séquence?
Si vous finissez par écrire quelque chose de réutilisable, pensez à contribuer au projet.
Écrivez un format d'entrée qui lit les fichiers PCAP, renvoyant quelque chose comme LongWritable pour la clé (le nième paquet dans le fichier) et PacketWritable comme valeur (contenant les données PCAP). Pour l'InputSplit, vous pouvez utiliser FileSplit, ou MultiFileSplit pour de meilleures performances, car un fichier PCAP individuel peut être lu de manière surprenante rapidement.
À moins que votre blocksize est plus grande que la taille de vos fichiers PPCE, vous ferez l'expérience beaucoup de réseau IO ...
Nous avons publié une bibliothèque pour le format PPCE fichiers récemment: https://github.com/RIPE-NCC/hadoop-pcap
- 1. Hadoop: (?) Map/reduce de HDFS
- 2. Comment "adapter" les foncteurs à utiliser avec map/multimap?
- 3. Alternatives PCAP
- 4. Comment utiliser google map pour mon site?
- 5. Comment lire plusieurs fichiers pcap> 2GB?
- 6. Emulation JQuery 'binary lock'
- 7. F #: Comment utiliser Map avec une collection (comme les correspondances Regex)?
- 8. Paralléliser les réducteurs Ruby dans Hadoop?
- 9. Utiliser Google Map dans l'application Blackberry
- 10. Java Binary Tree, comment implémenter Node?
- 11. Java Generics & Hadoop: comment obtenir une variable de classe
- 12. Comment conserver les journaux en C#?
- 13. Fichiers d'entrée Hadoop
- 14. Decimal to Bit (Binary)
- 15. Utiliser Powershell pour accéder aux journaux IIS?
- 16. Comment tronquer et réduire les fichiers journaux?
- 17. Visionneuse de journaux distants pour les fichiers journaux Java/Glassfish
- 18. comment intégrer google map?
- 19. Outil de décalage temporel d'un fichier PCAP?
- 20. Hadoop DFS Erreur d'autorisation
- 21. Hadoop DFS Erreur
- 22. Convertir les journaux Yahoo Messenger en journaux Adium
- 23. LINQ-to-SQL Énumération avec Binary = null échoue
- 24. Comment utiliser VB.NET pour interroger les journaux d'événements du serveur distant?
- 25. Tutoriel de soumission Iphone Binary?
- 26. Comment rendre une image avec map avec JSF/Richfaces?
- 27. Toute personne utilisant les services Web Bing Map avec Delphi?
- 28. Comment puis-je utiliser un SQL "IN" déclaration avec rails active Enregistrement et trouver .MAP
- 29. Travailler les journaux en production
- 30. Java vs Python sur Hadoop
'belongs- on-tdwtf'? – voyager
Hmm, nom d'utilisateur est Stalyn et veut savoir sur le traitement des décharges géantes pcap (capture de paquets) –