J'entraîne quelques modèles d'apprentissage machine qui représentent les mots comme vecteurs, en utilisant freebase comme données d'apprentissage. Comme l'API a été abandonnée, je travaille avec le vidage libre de base brute, qui est maintenant une liste de 3,1 milliards de triplets, contenant plus de 500 millions d'entités distinctes (sujet/objet), et je voudrais réduire ce nombre.Recherche de tous les noms d'entité à partir de la base libre obsolète
Je voudrais supprimer tous les triplets qui dénotent simplement les noms des sujets de sorte que seuls les triples contenant des MID restent. Cependant, j'ai trouvé plusieurs prédicats possibles qui définissent le 'nom' d'une entité.
i) common.notable_for.display_name
ii) type.object.name
iii)/rdf-schéma # étiquette
J'ai 3 questions:
a) Est-il une différence entre les prédicats ci-dessus?
b) Existe-t-il des prédicats supplémentaires qui décrivent également les noms des entités?
c) En dehors du triple où un nom est défini, le nom apparaît-il dans d'autres triplets, au lieu du MID?
Nous vous remercions de votre aide!