2009-07-29 4 views
8

Quel type de travail a été effectué pour déterminer si une chaîne spécifique se rapporte à un emplacement géographique? Par exemple:Identification d'emplacements géographiques dans le texte

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

Je suppose que ce que je suis une sorte d'attendre est une approche statistique qui donne un degré de confiance que les deux premiers sont des lieux. Le dernier nécessiterait probablement une heuristique qui saisit "% s,% s" et utilise ensuite la même technique. Je suis particulièrement à la recherche d'approches qui ne s'appuient pas trop sur la proposition «in», vu qu'il ne s'agit pas d'un indicateur de localisation tout à fait clair et sans ambiguïté. Est-ce que quelqu'un peut me diriger vers des approches, des documents ou des utilitaires existants? Merci!

Répondre

7

Le problème que vous décrivez est souvent appelé l'analyse de requêtes géographiques ou plus généralement la récupération d'informations géographiques.

Il y avait une tâche récente de faire ceci à CLEF 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm). L'équipe gagnante a utilisé une grammaire basée sur des règles, ce qui est similaire à ce que vous ne voulez probablement pas. Un autre article sur www2009 parle de GeoParser: http://www2009.eprints.org/239/.

Il y a aussi des documents sur la recherche d'information géographique à CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

Je ne sais pas d'un logiciel open source qui fait cela, mais il peut être empaqueté dans un moteur de recherche comme Lemur.

4

Everyblock.com a adopté une approche très intéressante qui est axée sur la façon dont les emplacements sont exprimés en anglais - ils utilisent essentiellement des expressions régulières sophistiquées et étendues qui sont maintenant open source. Leur application est conçue pour analyser des articles de presse, des critiques et divers flux de données publics et les relier à des emplacements spécifiques, et cela fonctionne bien. Des expressions telles que "Un incendie dans le bâtiment au coin nord-est du 20ème et Valencia St. à San Francisco" sont très précisément géocodées. Vous pouvez étudier la source here. La partie particulière que vous voulez probablement est ebpub/ebpub/geocoder/base.py, situé dans le téléchargement ebpub, et tout ce qui l'entoure, par exemple en commençant par la classe SmartGeocoder et en travaillant à rebours.

0

Je construis un geoparser gratuit à geocode.xyz

(soutient actuellement environ 50 pays européens, bientôt offrir une couverture mondiale)

Une application échantillon de géosémantique se trouve sur OpenWikiMap

Questions connexes