D'autres ont fait un peu de travail en votre nom, alors je suggère d'utiliser som ething comme le OpenCalais API. Il y a un wrapper python à l'API au http://code.google.com/p/python-calais/.
"Qui est Lady Gaga?" semble être un texte trop court pour leur donner une réponse décente. Cependant, si vous avez pris la peine de faire un processus en deux étapes et de récupérer le premier paragraphe de wikipedia pour Lady Gaga, et que vous fournissez ensuite l'API OpenCalais, vous obtiendrez de très bons résultats.
Vous pouvez le vérifier rapidement en copiant simplement le premier paragraphe de wikipedia dans le OpenCalais viewer. Le résultat est une classification dans le thème "Culture de divertissement" avec une estimation de confiance de 100%.
De même, l'exemple de base-ball retourne « sports » comme le sujet avec d'autres variables sociales de « loisirs », « baseball », etc.
Modifier Voici une autre pensée provoquée par l'utilisation de Calais de balises sociales: envoi l'url wikipedia pour Lady Gaga à l'API délicieux avec
curl -k https://user:[email protected]/v1/posts/suggest?url=http://en
.wikipedia.org/wiki/Lady_gaga
retours <?xml version="1.0" encoding="UTF-8"?> <suggest> <recommended>music</recommended> <recommended>wikipedia</recommended> <recommended>wiki</recommended> <recommended>people</recommended> <recommended>bio</recommended> <recommended>cool</recommended> <recommended>facts</recommended> <popular>music</popular> <popular>gaga</popular> <popular>ladygaga</popular> <popular>wikipedia</popular> <popular>lady</popular>
etc. devrait être assez facile à igno re les entrées de type wikipedia/wiki.