2010-06-21 4 views
0

Je travaille avec des fichiers ARC générés par une analyse Heritrix. Lorsque je regarde ces pages dans la Wayback Machine, il semble que la plupart des graphiques sont chargés à partir de ma machine locale, donc je suppose que ces graphiques sont stockés dans les fichiers ARC. Est-ce exact? Si oui, quelle est la meilleure façon d'extraire les images?Extraction de graphiques à partir de sites explorés (fichiers ARC)

Répondre

0

Je trouve une solution, un script perl appelé arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

Il extrait tous les fichiers qui se trouvent dans le fichier ARC, séparés par dossier selon le site à partir duquel ils ont été reçus. Et oui, cela inclut les fichiers image.

Le script n'est pas trop élégant ... donc si quelqu'un a d'autres suggestions, je serais intéressé à en apprendre davantage à leur sujet.

Questions connexes