2010-01-12 6 views
0

Lorsque je cherche quelque chose, j'obtiens un contenu qui a le même texte et le même titre. Bien sûr, il y a toujours un original (où les autres copient/abandonnent)Je construis un moteur de recherche. Comment supprimer les doublons des résultats de recherche?

Si vous avez une expertise dans la recherche et l'analyse ... comment recommandez-vous que je supprime ces doublons? (d'une manière très réalisable et efficace)

+0

Sonne comme une question superuser.com pour moi. – RedFilter

+2

un sujet général; Je commencerais par utiliser un moteur de recherche, par exemple. google et recherchez: "moteur de recherche" duplique le site: edu/http://www.google.com/search?hl=fr&q=%22search+engine%22+duplicates+site%3Aedu – miku

Répondre

1

Cela me semble une question de programmation. Si vous avez une idée claire de ce que sont les composants volés et originaux de ces pages, et si ces différences sont suffisamment générales pour que vous puissiez écrire un filtre pour les séparer, faites-le, hachez le contenu 'volé', et alors vous devriez être capable de comparer les hachages pour déterminer si deux pages sont identiques. J'imagine que les voleurs de pages Web peuvent aller plus loin dans le codage, y compris la modification des espaces, donc vous pouvez vouloir normaliser le html avant de le hacher, par exemple supprimer tous les espaces redondants, en utilisant tous les attributs " citations, etc.