Quels sont les bons algorithmes pour étiqueter automatiquement du texte avec la ville/région ou l'origine? Autrement dit, si un blog parle de New York, comment puis-je le dire par programmation? Y a-t-il des paquets/documents qui prétendent le faire avec un certain degré de certitude? J'ai examiné quelques approches basées sur tfidf, des intersections de noms propres, mais jusqu'ici, pas de succès spectaculaires, et j'apprécierais les idées!Méthodes de géolocalisation ou de géolabellisation du texte
La question plus générale concerne l'attribution de textes à des sujets, compte tenu d'une liste de sujets.
Les approches simples/naïves sont préférées aux approches bayésiennes, mais je suis ouvert.
Merci pour le conseil. C'est un problème dur et difficile, et votre réponse, que je résume comme "Look up NER" est sur le meilleur il ya, probablement :) –
Avez-vous trouvé une solution simple pour cette question .. ?? Comme je cherche aussi le même type d'application .. J'ai mis en place ma propre structure de données Trie et je peux aussi facilement chercher, mais le problème est la collecte de données .. Je dois obtenir toutes les données dans le dictionnaire ... S'il vous plaît partager tes pensées.. –