2016-07-30 1 views
3

J'entraîne quelques modèles d'apprentissage machine qui représentent les mots comme vecteurs, en utilisant freebase comme données d'apprentissage. Comme l'API a été abandonnée, je travaille avec le vidage libre de base brute, qui est maintenant une liste de 3,1 milliards de triplets, contenant plus de 500 millions d'entités distinctes (sujet/objet), et je voudrais réduire ce nombre.Recherche de tous les noms d'entité à partir de la base libre obsolète

Je voudrais supprimer tous les triplets qui dénotent simplement les noms des sujets de sorte que seuls les triples contenant des MID restent. Cependant, j'ai trouvé plusieurs prédicats possibles qui définissent le 'nom' d'une entité.

i) common.notable_for.display_name
ii) type.object.name
iii)/rdf-schéma # étiquette

J'ai 3 questions:

a) Est-il une différence entre les prédicats ci-dessus?
b) Existe-t-il des prédicats supplémentaires qui décrivent également les noms des entités?
c) En dehors du triple où un nom est défini, le nom apparaît-il dans d'autres triplets, au lieu du MID?

Nous vous remercions de votre aide!

Répondre

1

Vous devriez seulement vous concentrer sur le type.object.name qui est la propriété de schéma qui contient le nom du sujet.

Le /rdf-schema#label est l'égalisation, il ne fait pas partie du schéma de base libre.

La description de common.notable_for.display_name est: "Localisé/genre approprié nom d'affichage pour l'objet notable.", C'est aussi une propriété au sein d'un CVT (type de valeur composée) et il détient différents types d'informations: "de tous les types qu'un Pour autant que je m'en souvienne, "Larry Page" était un "entrepreneur", vous n'avez donc pas besoin de cette propriété, concentrez-vous sur le TON type.object.name