2016-12-20 1 views
3

Nous travaillons sur un projet de recherche pour répondre aux questions avec une base de connaissances. Nous avons adopté l'ensemble de données SimpleQuestions (https://research.fb.com/projects/babi/). Nous avons chargé le dernier vidage de données freebase dans Virtuoso et interrogé les noms des entités par leurs moyennes (en utilisant les relations type.object.name et common.topic.alias). Cependant, les noms de nombreuses entités ne peuvent pas être trouvés.Nom de l'entité introuvable par son milieu dans la base libre

Nous utilisons également le KB fourni par Semper (https://github.com/percyliang/sempre), où nous trouvons plus de noms d'entités mais pas tous. Nous supposons que ces entités pourraient être supprimées, est-ce vrai? Si oui, comment pouvons-nous continuer à travailler sur ce problème?

Répondre

1

L'API Freebase a été depreciated et il n'est pas possible d'obtenir les noms d'entité. Cependant, Google a fourni Freebase/Wikidata Mappings pour les entités 2.1M. Ces mappages pourraient être utilisés pour mapper l'entité freebase aux entités wikidata et obtenir leurs noms d'entité et d'autres informations.

En outre, http://sameas.org/ fournit des mappages supplémentaires pour les entités de base libre. Vous pouvez également lire le Freebase Dump pour obtenir ces correspondances. Personnellement, j'utilisé les propriétés suivantes pour obtenir les noms des entités correspondantes:

ENTITY_GET_LABEL_ORDER = [ 
    '<http://rdf.freebase.com/ns/type.object.name>', 
    '<http://rdf.freebase.com/ns/common.topic.alias>', 
    '<http://rdf.freebase.com/key/en>', 
    '<http://rdf.freebase.com/key/wikipedia.en>', 
    '<http://rdf.freebase.com/key/wikipedia.en_title>', 
    ] 

En outre, même après avoir fait cela, il y avait une bonne quantité (~ 1-5k, ne me souviens pas exactement) que nous mediums n'avons pas pu carte aux noms, et on pourrait supprimer en toute sécurité ces (seulement un petit nombre de telles) questions. Google fournit également un vidage supplémentaire qui contient certains tuples supprimés.