2008-10-02 7 views
9

Quels sont les bons algorithmes pour étiqueter automatiquement du texte avec la ville/région ou l'origine? Autrement dit, si un blog parle de New York, comment puis-je le dire par programmation? Y a-t-il des paquets/documents qui prétendent le faire avec un certain degré de certitude? J'ai examiné quelques approches basées sur tfidf, des intersections de noms propres, mais jusqu'ici, pas de succès spectaculaires, et j'apprécierais les idées!Méthodes de géolocalisation ou de géolabellisation du texte

La question plus générale concerne l'attribution de textes à des sujets, compte tenu d'une liste de sujets.

Les approches simples/naïves sont préférées aux approches bayésiennes, mais je suis ouvert.

Répondre

12

Vous recherchez un système named entity recognition ou NER court. Il y a severalgoodtoolkits disponible pour vous aider. LingPipe en particulier a un très decent tutorial. CAGEclass semble être orienté autour de NER sur les noms de lieux géographiques, mais je ne l'ai pas encore utilisé.

Here's une belle entrée de blog sur les difficultés de NER avec des noms de lieux géographiques.

Si vous utilisez Java, je vous recommande d'utiliser les classes LingPipe NER. OpenNLP en a aussi, mais le premier a une meilleure documentation.

Si vous cherchez un contexte théorique, Chavez et al. (2005) ont construit un syntème intéressant et l'ont documenté.

+0

Merci pour le conseil. C'est un problème dur et difficile, et votre réponse, que je résume comme "Look up NER" est sur le meilleur il ya, probablement :) –

+2

Avez-vous trouvé une solution simple pour cette question .. ?? Comme je cherche aussi le même type d'application .. J'ai mis en place ma propre structure de données Trie et je peux aussi facilement chercher, mais le problème est la collecte de données .. Je dois obtenir toutes les données dans le dictionnaire ... S'il vous plaît partager tes pensées.. –

2

Latent Semantic Mapping semble être un bon ajustement. C'est à peu près aussi naïf d'un algorithme que vous êtes susceptible de trouver.

Questions connexes