2017-07-13 3 views
3

Je suis capable d'effectuer des requêtes comme trouver la capitale ou la devise des pays mais avoir des problèmes pour extraire les données de la table. Je veux extraire des données des tables de la page this. Sa page dbpedia correspondante est this. Maintenant, si vous regardez la page dbpedia, il n'y a pas de relation pour les données tabulaires que je pourrais interroger. Qu'est-ce que j'oublie ici?Comment extraire des données de la table Wikipedia en utilisant dbpedia SPARQL

Edit: Il y a un project, qui je suppose, est actuellement en cours de développement. Existe-t-il un autre moyen de scraping

+1

On dirait que ce n'est pas encore un problème entièrement résolu. Il y a [des articles écrits dessus] (http://aidanhogan.com/docs/ld4ie-2013.pdf) en dehors du projet que vous avez partagé. Si votre besoin est ponctuel, vous devriez pouvoir gratter les données de la table brute et peut-être même créer des triplets (la conception des relations serait intéressante - les états que j'existe déjà sur DBPedia en tant qu'entités) –

+1

Bon, c'est développement en cours et en général, recherche en cours. En général on peut utiliser n'importe quel outil csv2rdf et le faire manuellement mais le faire automatiquement n'est pas si simple. Vous pouvez essayer l'outil de travail en cours dans le cadre du GSOC 2017: https://github.com/dbpedia/table-extractor Mais cela doit être chargé dans votre propre magasin triple alors. – AKSW

Répondre

2

Cette réponse ne va probablement pas vous aider tout de suite, mais c'est comme cela que je pense que cela devrait fonctionner. Au lieu de "interroger une table", pensez-y comme ceci:
Vous recherchez tous les Etats Indiens (chacun une entité sur DBPedia), leur PIB et peut-être d'autres attributs. Le PIB est (ou devrait être) un attribut de l'entité d'état - la page "Liste" est simplement une agrégation pratique et ne devrait pas servir de copie principale.

Quelque chose comme:

select ?state ?gdp WHERE { 
    ?state dbo:country dbr:India . 
    ?state ?hasGDP ?gdp 
} 
ORDER by ?gdp 

Malheureusement, les pages de l'Etat sur DBPedia ne disposent actuellement pas la propriété ?hasDGP (sur des lignes similaires car ils ont la propriété dbo:populationTotal). En raison de ces liens manquants, vous êtes probablement de retour à l'utilisation de raclage comme alternative.