Je travaille avec des fichiers ARC générés par une analyse Heritrix. Lorsque je regarde ces pages dans la Wayback Machine, il semble que la plupart des graphiques sont chargés à partir de ma machine locale, donc je suppose que ces graphiques sont stockés dans les fichiers ARC. Est-ce exact? Si oui, quelle est la meilleure façon d'extraire les images?Extraction de graphiques à partir de sites explorés (fichiers ARC)
0
A
Répondre
0
Je trouve une solution, un script perl appelé arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
Il extrait tous les fichiers qui se trouvent dans le fichier ARC, séparés par dossier selon le site à partir duquel ils ont été reçus. Et oui, cela inclut les fichiers image.
Le script n'est pas trop élégant ... donc si quelqu'un a d'autres suggestions, je serais intéressé à en apprendre davantage à leur sujet.
Questions connexes
- 1. Extraction de graphiques à partir de documents Excel à l'aide de POI ou de HSSF?
- 2. Nettoyage et extraction de données à partir de fichiers texte
- 3. Extraction de fichiers .htm à partir de SSRS
- 4. Extraction de texte à partir de fichiers pdf et Word
- 5. Extraction de titres à partir de fichiers PDF?
- 6. Extraction de métadonnées XMP à partir de fichiers EPS
- 7. Extraction de texte à partir de fichiers PDF en C#
- 8. Extraction de MimeType à partir de shell32
- 9. extraction de données à partir d'un plist
- 10. Extraction de données à partir d'un objet
- 11. extraction de données à partir d'un fichier
- 12. où les fichiers explorés sont stockés dans web crawler Heritrix
- 13. Extraction de noms de domaine de premier niveau à partir de la liste d'adresses de sites Web
- 14. Extraction de texte de la parole à partir de fichiers vidéo et audio
- 15. Extraction de fichiers modifiés en dehors de VS à partir de TFS
- 16. Création de graphiques de sites Web avec GWT
- 17. SPSite à partir de deux sites différents
- 18. Extraction des informations démographiques et de contact à partir de fichiers texte non structurés
- 19. Extraction de données IPTC/EXIF à partir de fichiers tif en utilisant Java
- 20. Extraction d'un assemblage .NET à partir de SQL Server 2005
- 21. Commandes de cartes graphiques pour les sites Web
- 22. Extraction de nombres à partir d'un entier de 32 bits
- 23. Extraction de texte à partir de HTML (Perl)
- 24. Extraction de noms à partir de texte (Java)
- 25. Extraction de métadonnées à partir de torrents avec Java
- 26. information de sites
- 27. Extraction de contenu à partir du document MHT
- 28. fichiers spécifiques de extraction ZIP dans PHP
- 29. Extraction de données binaires à partir de SQL Server à l'aide de T-SQL
- 30. MOSS: Création de modèles de sites à partir de sites de publication