2016-10-27 1 views
0

Très souvent, j'ai à traiter de très gros fichiers binaires (de 50 à 500Go), dans des formats différents, qui contient essentiellement des données mixtes y compris les chaînes.Cordes outil d'indexation pour les fichiers binaires

J'ai besoin d'indexer les chaînes dans le fichier, la création d'une base de données ou un index, donc je peux faire des recherches rapides (recherche de base ou complexes avec regex). La sortie de la recherche doit être bien sûr le décalage de la chaîne trouvée dans le fichier binaire.

Est-ce que quelqu'un sait un outil, un cadre ou d'une bibliothèque qui peut me aider à cette tâche?

Répondre

0

Vous pouvez exécuter « des chaînes d -t » (Linux/OS X) pour sortir des chaînes avec leur décalage correspondant, puis mettre cela en Solr ou élastique. Si vous voulez plus qu'un simple ASCII cependant, il est plus complexe.

Autopsy a son propre code d'extraction de chaînes (pour UTF-8 et UTF-16) et le met dans Solr (et utilise Tika si le format de fichier est supporté), mais il n'enregistre pas le décalage d'un fichier binaire Il se peut donc que cela ne réponde pas à vos besoins.