2009-08-07 3 views

Répondre

2

Il y avait un fil sur la liste des utilisateurs à ce sujet: http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward

Fondamentalement, le format n'est pas divisible que vous ne pouvez pas trouver un début d'un enregistrement à partir d'un décalage arbitraire dans le fichier. Vous devez donc effectuer un pré-traitement, en insérant des points de synchronisation ou quelque chose de similaire. Peut-être convertir des fichiers plus petits en séquences, puis fusionner les petits fichiers de séquence?

Si vous finissez par écrire quelque chose de réutilisable, pensez à contribuer au projet.

1

Écrivez un format d'entrée qui lit les fichiers PCAP, renvoyant quelque chose comme LongWritable pour la clé (le nième paquet dans le fichier) et PacketWritable comme valeur (contenant les données PCAP). Pour l'InputSplit, vous pouvez utiliser FileSplit, ou MultiFileSplit pour de meilleures performances, car un fichier PCAP individuel peut être lu de manière surprenante rapidement.

À moins que votre blocksize est plus grande que la taille de vos fichiers PPCE, vous ferez l'expérience beaucoup de réseau IO ...

Questions connexes