1

Je veux en quelque sorte des informations de type extrait de Wikipedia. Par exemple, je veux trouver:Comment extraire des informations (par exemple des types et des sous-types) de Wikipedia?

  • liste de tous les « Carolina Panthers »
  • liste
  • de toutes les « couleurs »
  • liste de toutes les « équipes de la NFL »
  • liste de tous les « mois »

Des idées s'il y a une façon propre de faire cela?

Il est clair qu'une alternative utilise l'API, mais pour autant que je sache, il n'est pas trivial d'utiliser l'API existante pour extraire de telles informations de Wiki.

+0

Connaissez-vous DBpedia? Cela marcherait-il pour toi? – unor

+0

@unor ouais. Pensez-vous que DBpedia pourrait fonctionner mieux que MediaWiki api? Ou il pourrait être plus robuste? – Daniel

+1

Je ne suis pas sûr (je n'ai jamais utilisé l'API), je voulais juste préciser si vous l'avez peut-être pris en compte. – unor

Répondre

0
1

Il semble que vous devez extraire toutes les catégories de Wikipedia et de construire la taxonomie des catégories. Une fois la taxonomie de catégorie créée, vous pourrez également récupérer les catégories associées. En utilisant les informations sur les catégories, vous pouvez également récupérer tous les articles de Wikipédia associés à une catégorie particulière.

Je crois que mon projet sur mining Wikipedia peut vous aider à cet égard. J'ai pré-traité des informations sur les articles et les catégories de Wikipédia disponibles au public.