2010-08-15 5 views
3

J'ai 20 000 adresses d'entreprise sur divers documents, qui sont tous formatés différemment. Par exemple:Techniques de classification probabiliste de données textuelles similaires?

  • Société A 12 345 rue US

  • CompanyA, Inc box2, 12345 rue WA, États-Unis

  • La société B Company Ltd 123 rue heureux Royaume-Uni

  • entreprise B, Ltd 123, rue heureuse, londres, S1 J'aimerais pouvoir combiner les enregistrements pour chaque entreprise (c.-à-d., 1AA

) séparer ce qui précède en 2 catégories, une par entreprise).

Je n'ai aucune idée de comment procéder. Je suppose que tout regroupement sera de nature probabiliste et fonctionnera probablement bien pour des correspondances plus faciles, mais nécessitera un examen manuel pour les correspondances moins probables/plus incertaines. Est-ce que quelqu'un peut nommer des techniques appropriées pour ce type de tâche?

merci beaucoup!

+0

Si vous savez qu'ils sont pour certaines adresses, ne pouvez-vous pas rechercher certains mots-clés et faire une supposition de quel groupe ils appartiennent? Le cluster de cette façon sera à propos du pays des adresses, créant ainsi seulement deux groupes. Bien sûr, si vous vouliez des grappes beaucoup plus fines, cette approche pourrait ne pas fonctionner. – Gangadhar

Répondre

2

Peut-être automatic grammar induction est une technique qui donnerait des résultats ici. Vous pouvez essayer d'inférer des grammaires pour votre texte, puis utiliser une sorte de métrique de comparaison pour regrouper les grammaires déduites.

Questions connexes