Existe-t-il un outil populaire pour l'exploration de données Web?

Je travaille sur l'extraction de l'information, et j'ai besoin d'un outil pour analyser les données de la page Web , y at-il un populaire dans Windows?Existe-t-il un outil populaire pour l'exploration de données Web?

Source

2009-12-14 MainID

Je pense que vous devez être plus explicite sur ce que vous voulez faire. – tzerb

De: http://en.wikipedia.org/wiki/Web_crawler:

aspseek est un robot, indexeur et un moteur de recherche écrit en C et sous licence GPL
arachnode.net est un robot Web .NET écrit en C# utilisant SQL 2008 et Lucene.
DataparkSearch est un robot et moteur de recherche sous licence GNU General Public License.
GNU Wget est un robot à commande de ligne de commande écrit en C et sous licence GPL. Il est généralement utilisé pour refléter les sites Web et FTP.
GRUB est un moteur de recherche distribué open source que Wikia Search (http://wikiasearch.com) utilise pour explorer le Web.
Heritrix est le robot d'exploration de qualité d'archivage d'Internet Archive, conçu pour archiver des instantanés périodiques d'une grande partie du Web. Il a été écrit en Java.
ht: // Dig inclut un robot d'indexation Web dans son moteur d'indexation.
HTTrack utilise un robot d'indexation Web pour créer un miroir d'un site Web pour un affichage hors ligne. Il est écrit en C et publié sous la licence GPL.
Crawler ICDL est un robot d'indexation multiplateforme écrit en C++ et destiné à analyser des sites Web basés sur des modèles d'analyse de site Web en utilisant uniquement les ressources d'UC libres de l'ordinateur.
mnoGoSearch est un robot, indexeur et un moteur de recherche écrit en C et sous licence GPL
Nutch est un robot écrit en Java et publié sous licence Apache. Il peut être utilisé conjointement avec le package d'indexation de texte Lucene.
Pavuk est un outil de miroir Web en ligne de commande avec crawler GUI en option X11 et sous licence GPL. Il a beaucoup de fonctionnalités avancées par rapport à wget et httrack, par exemple, le filtrage basé sur l'expression régulière et les règles de création de fichiers.
YaCy, un moteur de recherche libre distribué, fondé sur les principes des réseaux peer-to-peer (sous licence GPL).

Et une lecture: Spidering Hacks 100 Industrial-Strength Tips & Tools:

écrit pour les développeurs, chercheurs, assistants techniques, des bibliothécaires, et les utilisateurs, Spidering Hacks fournit des conseils d'experts sur spidering et méthodologies racleurs. Vous commencerez par un cours intensif sur les concepts, les outils (Perl, LWP, utilitaires prêts à l'emploi) et l'éthique (comment savoir quand vous êtes allé trop loin: ce qui est acceptable et inacceptable). Ensuite, vous collecterez les fichiers multimédias et les données des bases de données.Ensuite, vous apprendrez à interpréter et à comprendre les données, à les réutiliser dans d'autres applications et même à créer des interfaces autorisées pour intégrer les données dans votre propre contenu.

Source

2009-12-14 17:21:28 miku

Existe-t-il un outil populaire pour l'exploration de données Web?

Répondre

Questions connexes