2010-07-01 10 views
8

Je cherche des références (tutoriels, livres, littérature académique) concernant la structuration de texte non structuré d'une manière similaire au bouton d'ajout rapide de google calendar.Texte non structuré aux données structurées

Je comprends cela peut venir dans la catégorie PNL, mais je suis intéressé que dans le processus d'aller de quelque chose comme « jeans Levi taille 32 A0b293 »

à: Marque: Levi, Taille: 32, Catégorie: Jeans, code: A0b293

J'imagine que ce serait une combinaison de techniques d'analyse lexicale et d'apprentissage automatique.

Je suis plutôt la langue agnostique, mais si on le pousse préféreraient python, Matlab ou les références C

Merci

+0

Quelle est la limite de votre domaine? Google Calendar Quick Add ne traite que les dates et les heures (et pas toujours bien). Le champ de recherche Google Maps ne traite que des emplacements. La difficulté de faire cela dépend de la limite de votre domaine.(Un catalogue de produits?) – tcarobruce

+0

Contraint de traiter avec des clotthes comme dans l'exemple – zenna

Répondre

7

Vous devez fournir plus d'informations sur la source du texte (le web? Entrée utilisateur?), le domaine (est-ce juste des vêtements?), la mise en forme potentielle et le vocabulaire ...

En supposant le pire des cas, vous devez commencer à apprendre le PNL. Un très bon livre gratuit est la documentation de NLTK: http://www.nltk.org/book. C'est aussi une très bonne introduction à Python et le SW est gratuit (pour diverses utilisations). Soyez averti: la PNL est difficile. Cela ne fonctionne pas toujours. Ce n'est pas amusant à la fois. L'état de l'art n'est pas là où vous l'imaginez. En supposant un meilleur scénario (votre texte est semi-structuré) - un bon outil gratuit est le pyparsing. Il y a un livre, plein d'exemples et le code qui en résulte est extrêmement attrayant.

J'espère que cette aide ...

1

regarder Peut-être à "intelligence collective" par Toby Segaran. Il me semble me rappeler que l'on aborde les bases de ceci en un chapitre.

+0

l'un des meilleurs livres pour l'intelligence collective là-bas. – jvc

1

Après quelques recherches j'ai trouvé que ce problème est communément appelé extraction d'information et ont amassé quelques papiers et les a stockés dans une Mendeley Collection

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

également que Tai Weiss a noté NLTK pour python est un bon point de départ et this chapitre du livre, se penche spécifiquement sur l'extraction de l'information

+0

Ce lien semble être mort –

0

Si vous ne travaillez que pour des cas comme l'exemple que vous avez cité, vous feriez mieux d'utiliser quelques m 100% prévisible et couvre 90% des cas, il pourrait rencontrer la production ..

Vous pourriez énumérer des listes de toutes les marques et catégories possibles et de détecter qui est ce qui dans une chaîne d'entrée cos il y a généralement très peu intersection dans ces deux listes ..

Les deux autres pourraient facilement être détectés et extraits en utilisant des expressions régulières. (Les nombres de 1 à 3 chiffres sont toujours les tailles, etc.)

Votre domaine de problème ne semble pas assez grand pour justifier une approche plus lourde telle que l'apprentissage statistique.

+0

D'accord, je soupçonne que Google Agenda utilise un système basé sur des règles (pensez aux expressions régulières) pour faire l'analyse. L'apprentissage automatique est plus utile lorsque vous extrayez des informations d'un texte plus incertain. Mais si votre domaine est assez bien connu et que la chaîne d'entrée est limitée, vous pouvez vous en passer avec les règles. – Thien

Questions connexes