2015-10-15 1 views
1

J'ai essayé de gratter toutes les pages du wiki de la biographie pendant des semaines. Le problème est que je ne peux pas trouver un moyen de distinguer une page concernant une personne ou quelque chose d'autre.Scraping: Vérifiez si le wiki est une page-personne

Par exemple, les pages suivantes:

regardent assez la même en ce qui concerne leur code HTML. Je suis sûr qu'il doit y avoir un mot clé permettant de savoir si la page est liée à une personne.

Est-ce que quelqu'un a fait face au même problème? Merci d'avance =)

Répondre

2

Je ne suis pas sûr qu'il existe un moyen précis de dire, mais vous pouvez créer une liste d'indicateurs que vous pensez que la page pourrait être sur une personne, puis correspondre sur ceux-ci. Par exemple sur la page Albert Einstein, il y a une section pour "Born" et "Died" dans le volet de droite. En ayant ces présents, nous pouvons être sûrs que cet article parle d'une personne (bien que si vous cherchez mort, vous n'aurez probablement que des morts). Ces titres ne sont cependant pas cohérents et vous devrez vous fonder sur un ou plusieurs d'entre eux pour renforcer la confiance que l'article est en effet sur une personne. par exemple. https://en.wikipedia.org/wiki/Lionel_Messi ne contient pas l'en-tête "Born" mais il contient "Date de naissance".

Alternativement à cela, vous pouvez faire un peu d'analyse en langage naturel pour essayer de savoir si le texte principal de la page parle d'une personne. Beaucoup de mentions de "il" ou "elle", signifie probablement que l'article parle d'une personne.