2011-05-16 5 views
0

J'ai écrit un webcrawler simle. J'ai récupéré tous les sites Web et mais sur mon disque dur. maintenant je veux les analyser, donc je pourrais écrire une interface simple comme www.google.de et rechercher des informations dans mes pages récupérées.webcrawler analyse des pages trouvées

le problème est de savoir comment trouver les informations importantes de manière "rapide". donc le calcul est important. cela pourrait être en temps réel ou après le fetch. mon idée est d'écrire un dicton avec une liste de mots anglais et compter les entrys ... ou quoi faire? J'ai besoin de cours pour extraire des informations et les compresser. mais je ne sais pas où regarder.

le crawler est basé sur C++ avec mysql où les liens sont stockés.

J'espère que ma question est claire. : D

BTW SRY pour mon mauvais anglais mais il ISTN un conseil comme celui-ci en allemand: P

Répondre

1

La science de la recherche d'information (IR) est complexe.

Avez-vous regardé l'un des textes standards? Comme:

Introduction à l'information de récupération par Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze (7 juillet 2008) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Recherche d'information: mise en œuvre et l'évaluation des moteurs de recherche par Stefan Büttcher, Charles LA Clarke et Gordon V. Cormack (23 juil. 2010) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Rechercher 'information retrieval' sur Amazon pour plus d'informations.

Vous pouvez également jeter un oeil à ma réponse à Design Question for Notification System qui décrit une architecture générale pour les sites Web de recherche pour la recherche.

+0

hey, merci, c'est ce que je cherche: P – Roby

Questions connexes