2010-06-30 4 views
2

Si je comprends bien, la taxonomie Freebase se résume généralement à la baisse à cette hiérarchie:Comment puis-je récupérer les types pour un sujet

Domain Category > Domain > Type > Topic 

J'ai une application qui reçoit l'entrée et fait un peu de traitement du langage naturel crache un tas de termes - certains utiles et d'autres pas. Dans un premier effort pour systématiquement "décider" si un terme est utile, mon idée est de "le tester" contre Freebase en supposant que c'est le sujet et de voir si Freebase a le terme classé sous au moins un type.

Donc ce que j'essaie de faire maintenant, est donné un sujet, trouver ses ID de type (et les noms, idéalement). Si aucun n'est retourné, cela me dit quelque chose au sujet du soi-disant sujet. Si un ou plusieurs types sont retournés, alors j'ai non seulement une certaine mesure de l'utilité du terme, mais aussi une capacité à superposer la taxonomie Freebase et à donner aux gens une méthode différente pour y accéder (via cette métaphore de l'arbre). Par exemple, je pourrais recevoir "Politique", "Organisation politique", "administration", "photo", "MSN", etc. du moteur PNL. Quel type de requête MQL peut me dire quel (s) type (s) est (sont) connecté (s) à ces sujets, le cas échéant?

Merci pour votre aide.

MISE À JOUR

Je viens d'avoir un de ces grandioses moments de claque la tête. Je me suis éloigné de la question avec laquelle je bricolais depuis un moment et quand je suis revenu, j'ai vu l'erreur de mes manières. Je suis en train de faire de cette façon trop difficile et, comme toujours, la solution simple que je ne pouvais pas voir était exactement ce que je devais voir

[{ 
    "id": null, 
    "name": "Politics", 
    "type": [{"id": null, "name": null }] 
}]​ 

Cela me conduit à une question légèrement différente, bien que . Ce que je reçois est de multiples sujets, dont un en/politique et un tas d'autres dont l'id est /m/..., etc. Je comprends que le système Freebase est complexe, mais je suis loin de comprendre cette complexité. Pour ce genre d'exercice, suis-je le plus susceptible de vouloir le sujet /en/?

Répondre

1

En général, les/fr/rubriques sont plus remarquables que/m/rubriques. Les ID/m/sont automatiquement affectés à tout nouveau sujet ajouté à Freebase, mais les/fr/doivent être ajoutés manuellement ou semi-automatiquement par la communauté. Jusqu'à présent, la plupart des clés/en/viennent de Wikiedia (qui a ses propres exigences de notabilité) mais elles peuvent venir de n'importe où.

Voici a list of some of the other popular namespaces utilisés dans Freebase. En outre, puisque vous avez mentionné l'utilisation de la PNL pour faire correspondre les rubriques du texte à Freebase, vous pourriez être intéressé par la lecture expérimentale Reconciliation API. C'est ainsi que vous trouveriez la «meilleure correspondance» pour un sujet compte tenu des indices contextuels disponibles dans vos données.

+0

Merci, c'est génial. L'API de réconciliation a l'air cool, mais peut ne pas être une solution pour moi en ce moment, car il semble y avoir beaucoup plus d'informations (Freebase-centric) que je devrais l'envoyer. Même si je recevais plusieurs réponses, je ne serais pas en mesure de les évaluer au niveau du système. –

+0

Je comprends; C'est certainement un problème que beaucoup de gens ont. Peut-être que l'API de recherche (www.freebase.com/docs/web_services/search) serait suffisante dans votre cas. Il vous permet de passer un nom de sujet et donne à chaque résultat un score numérique estimant à quel point il correspond en le comparant aux données Freebase ainsi qu'aux textes de Wikipédia. –

Questions connexes