Techniques de classification probabiliste de données textuelles similaires?

J'ai 20 000 adresses d'entreprise sur divers documents, qui sont tous formatés différemment. Par exemple:Techniques de classification probabiliste de données textuelles similaires?

Société A 12 345 rue US
CompanyA, Inc box2, 12345 rue WA, États-Unis
La société B Company Ltd 123 rue heureux Royaume-Uni
entreprise B, Ltd 123, rue heureuse, londres, S1 J'aimerais pouvoir combiner les enregistrements pour chaque entreprise (c.-à-d., 1AA

) séparer ce qui précède en 2 catégories, une par entreprise).

Je n'ai aucune idée de comment procéder. Je suppose que tout regroupement sera de nature probabiliste et fonctionnera probablement bien pour des correspondances plus faciles, mais nécessitera un examen manuel pour les correspondances moins probables/plus incertaines. Est-ce que quelqu'un peut nommer des techniques appropriées pour ce type de tâche?

merci beaucoup!

Source

2010-08-15 Airtiger

Si vous savez qu'ils sont pour certaines adresses, ne pouvez-vous pas rechercher certains mots-clés et faire une supposition de quel groupe ils appartiennent? Le cluster de cette façon sera à propos du pays des adresses, créant ainsi seulement deux groupes. Bien sûr, si vous vouliez des grappes beaucoup plus fines, cette approche pourrait ne pas fonctionner. – Gangadhar

Peut-être automatic grammar induction est une technique qui donnerait des résultats ici. Vous pouvez essayer d'inférer des grammaires pour votre texte, puis utiliser une sorte de métrique de comparaison pour regrouper les grammaires déduites.

Source

2010-08-15 18:08:19 Gian

Techniques de classification probabiliste de données textuelles similaires?

Répondre

Questions connexes