Je travaille sur l'extraction de l'information, et j'ai besoin d'un outil pour analyser les données de la page Web , y at-il un populaire dans Windows?Existe-t-il un outil populaire pour l'exploration de données Web?
Répondre
De: http://en.wikipedia.org/wiki/Web_crawler:
- aspseek est un robot, indexeur et un moteur de recherche écrit en C et sous licence GPL
- arachnode.net est un robot Web .NET écrit en C# utilisant SQL 2008 et Lucene.
- DataparkSearch est un robot et moteur de recherche sous licence GNU General Public License.
- GNU Wget est un robot à commande de ligne de commande écrit en C et sous licence GPL. Il est généralement utilisé pour refléter les sites Web et FTP.
- GRUB est un moteur de recherche distribué open source que Wikia Search (http://wikiasearch.com) utilise pour explorer le Web.
- Heritrix est le robot d'exploration de qualité d'archivage d'Internet Archive, conçu pour archiver des instantanés périodiques d'une grande partie du Web. Il a été écrit en Java.
- ht: // Dig inclut un robot d'indexation Web dans son moteur d'indexation.
- HTTrack utilise un robot d'indexation Web pour créer un miroir d'un site Web pour un affichage hors ligne. Il est écrit en C et publié sous la licence GPL.
- Crawler ICDL est un robot d'indexation multiplateforme écrit en C++ et destiné à analyser des sites Web basés sur des modèles d'analyse de site Web en utilisant uniquement les ressources d'UC libres de l'ordinateur.
- mnoGoSearch est un robot, indexeur et un moteur de recherche écrit en C et sous licence GPL
- Nutch est un robot écrit en Java et publié sous licence Apache. Il peut être utilisé conjointement avec le package d'indexation de texte Lucene.
- Pavuk est un outil de miroir Web en ligne de commande avec crawler GUI en option X11 et sous licence GPL. Il a beaucoup de fonctionnalités avancées par rapport à wget et httrack, par exemple, le filtrage basé sur l'expression régulière et les règles de création de fichiers.
- YaCy, un moteur de recherche libre distribué, fondé sur les principes des réseaux peer-to-peer (sous licence GPL).
Et une lecture: Spidering Hacks 100 Industrial-Strength Tips & Tools:
écrit pour les développeurs, chercheurs, assistants techniques, des bibliothécaires, et les utilisateurs, Spidering Hacks fournit des conseils d'experts sur spidering et méthodologies racleurs. Vous commencerez par un cours intensif sur les concepts, les outils (Perl, LWP, utilitaires prêts à l'emploi) et l'éthique (comment savoir quand vous êtes allé trop loin: ce qui est acceptable et inacceptable). Ensuite, vous collecterez les fichiers multimédias et les données des bases de données.Ensuite, vous apprendrez à interpréter et à comprendre les données, à les réutiliser dans d'autres applications et même à créer des interfaces autorisées pour intégrer les données dans votre propre contenu.
- 1. Application web Blackberry populaire
- 2. Module ou outil pour l'importation de données Web et ETL?
- 3. Boîte à outils de visualisation de données fiable/populaire pour le web
- 4. outil de test de perfomance pour un site web
- 5. Un outil pour afficher les attributs de session Web?
- 6. outil le meilleur site Web pour Drupal Statistiques
- 7. Outil de conception Web pour le développeur Web
- 8. Outil pour tester des sites Web
- 9. asp.net outil d'administration web base de données personnalisée
- 10. Outil d'interface Web pour le dépôt Debian?
- 11. Outil Maven pour créer une application Web
- 12. Outil d'administration de site Web ERREURS
- 13. Outil de ligne de commande pour optimiser le développement Web?
- 14. Outil de création de pages Web JSP
- 15. Outil pour télécharger le contenu d'un répertoire de pages Web
- 16. Base de données Diff outil
- 17. Outil d'exploration de données Google
- 18. Outil pour valider un livrable?
- 19. Outil pour analyser un fichier
- 20. Qu'est-ce qu'un outil pour la comparaison de pages Web?
- 21. Asp.net outil de données formview
- 22. Outil de test unitaire pour la base de données Sybase
- 23. Existe-t-il un outil DB de type Web pour la navigation dans les bases de données relationnelles?
- 24. Outil/moteur 'business rules' approprié pour mon application web
- 25. Quel est l'uploader Flash le plus populaire?
- 26. outil de modélisation de base de données
- 27. Outil pour remplir un ensemble de données .Net avec des données
- 28. Un bon outil pour remplir la base de données avec des données factices?
- 29. Outil de génération de données de test
- 30. test de performance pour les services Web (outil de stress d'application Web de Microsoft?)
Je pense que vous devez être plus explicite sur ce que vous voulez faire. – tzerb