2010-11-23 7 views
3

Existe-t-il un moyen de collecter du contenu Web afin de l'utiliser dans un moteur de recherche sans passer par la phase d'exploration Web? Toute alternative à l'exploration Web?Moteur de recherche sans rampement?

Merci

Répondre

5

Non, pour recueillir le contenu que vous devez ... récupérer le contenu. :-)

+1

Assez juste. Merci :-) – wassimans

1

Vous devez, de manière directe ou indirecte, explorer le Web pour obtenir le contenu.

3

Oui (et sorte de non).

:)

Vous pouvez télécharger les données existantes décharges à partir de différents sites (wikipedia, stackoverflow, etc.) et construire un index partiel de cette façon. Ce ne sera évidemment pas un index complet d'Internet. Vous pouvez également utiliser méta-recherche pour construire votre moteur de recherche. Vous pouvez également utiliser méta-recherche. C'est ici que vous utilisez les API des autres moteurs de recherche et que vous utilisez les résultats de recherche THEIR comme base de votre index. Les exemples comprennent citosearch et opensearch. DuckDuckgo utilise yahoo's boss api (et maintenant Yahoo utilise Bing ...) dans le cadre de leur moteur de recherche.

Il existe également des API de streaming en temps réel que vous pouvez utiliser au lieu d'explorer le Web. Regardez datasift à titre d'exemple. Il y a beaucoup plus de ressources que vous pourriez utiliser intelligemment et éviter/minimiser l'exploration.

2

Si vous souhaitez être mis à jour avec le contenu le plus récent sur les pages, vous pouvez utiliser quelque chose comme le protocole pubsubhubbub pour obtenir des notifications push pour les liens auxquels vous êtes abonné. Ou utilisez des services payants comme superfeedr qui utilisent le même protocole.

0

Bien, si vous ne voulez pas explorer, vous pouvez suivre une approche wiki, où les utilisateurs peuvent soumettre des liens vers des sites (avec le titre, la description et les balises). Une collection de liens collaboratifs peut donc être créée.

Pour éviter le spam, un système +/- peut être impliqué, pour voter des sites utiles ou des tags inutiles.

Pour éviter les SERPs de vote en masse des spammeurs, vous pouvez pondérer les votes par réputation de l'utilisateur.

La réputation de l'utilisateur peut être acquise en soumettant des sites utiles. Ou en quelque sorte traçant des modèles d'utilisation.

Et en considérant d'autres modèles d'abus aussi.

Eh bien, vous avez compris, je pense. Comme les spammeurs découvrent progressivement les faiblesses des moteurs de recherche traditionnels (voir Google bomb, les sites de lecture de contenu, etc.), une approche basée sur la communauté peut fonctionner. Mais il souffrirait sérieusement de l'effet cold start, et quand la communauté est petit le système est facile d'abuser et de poison ...

au moins Wikipédia et Stack Exchange n'est pas spammé à des niveaux inutiles à ce jour ...

PS: http://xkcd.com/810/