Texte non structuré aux données structurées

Je cherche des références (tutoriels, livres, littérature académique) concernant la structuration de texte non structuré d'une manière similaire au bouton d'ajout rapide de google calendar.Texte non structuré aux données structurées

Je comprends cela peut venir dans la catégorie PNL, mais je suis intéressé que dans le processus d'aller de quelque chose comme « jeans Levi taille 32 A0b293 »

à: Marque: Levi, Taille: 32, Catégorie: Jeans, code: A0b293

J'imagine que ce serait une combinaison de techniques d'analyse lexicale et d'apprentissage automatique.

Je suis plutôt la langue agnostique, mais si on le pousse préféreraient python, Matlab ou les références C

Merci

Source

2010-07-01 zenna

Quelle est la limite de votre domaine? Google Calendar Quick Add ne traite que les dates et les heures (et pas toujours bien). Le champ de recherche Google Maps ne traite que des emplacements. La difficulté de faire cela dépend de la limite de votre domaine.(Un catalogue de produits?) – tcarobruce

Contraint de traiter avec des clotthes comme dans l'exemple – zenna

Vous devez fournir plus d'informations sur la source du texte (le web? Entrée utilisateur?), le domaine (est-ce juste des vêtements?), la mise en forme potentielle et le vocabulaire ...

En supposant le pire des cas, vous devez commencer à apprendre le PNL. Un très bon livre gratuit est la documentation de NLTK: http://www.nltk.org/book. C'est aussi une très bonne introduction à Python et le SW est gratuit (pour diverses utilisations). Soyez averti: la PNL est difficile. Cela ne fonctionne pas toujours. Ce n'est pas amusant à la fois. L'état de l'art n'est pas là où vous l'imaginez. En supposant un meilleur scénario (votre texte est semi-structuré) - un bon outil gratuit est le pyparsing. Il y a un livre, plein d'exemples et le code qui en résulte est extrêmement attrayant.

J'espère que cette aide ...

Source

2010-07-02 01:16:58

regarder Peut-être à "intelligence collective" par Toby Segaran. Il me semble me rappeler que l'on aborde les bases de ceci en un chapitre.

Source

2010-07-02 14:27:45 leancz

l'un des meilleurs livres pour l'intelligence collective là-bas. – jvc

Après quelques recherches j'ai trouvé que ce problème est communément appelé extraction d'information et ont amassé quelques papiers et les a stockés dans une Mendeley Collection

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

également que Tai Weiss a noté NLTK pour python est un bon point de départ et this chapitre du livre, se penche spécifiquement sur l'extraction de l'information

Source

2010-07-04 23:09:28 zenna

Ce lien semble être mort –

Si vous ne travaillez que pour des cas comme l'exemple que vous avez cité, vous feriez mieux d'utiliser quelques m 100% prévisible et couvre 90% des cas, il pourrait rencontrer la production ..

Vous pourriez énumérer des listes de toutes les marques et catégories possibles et de détecter qui est ce qui dans une chaîne d'entrée cos il y a généralement très peu intersection dans ces deux listes ..

Les deux autres pourraient facilement être détectés et extraits en utilisant des expressions régulières. (Les nombres de 1 à 3 chiffres sont toujours les tailles, etc.)

Votre domaine de problème ne semble pas assez grand pour justifier une approche plus lourde telle que l'apprentissage statistique.

Source

2010-07-05 04:34:17

D'accord, je soupçonne que Google Agenda utilise un système basé sur des règles (pensez aux expressions régulières) pour faire l'analyse. L'apprentissage automatique est plus utile lorsque vous extrayez des informations d'un texte plus incertain. Mais si votre domaine est assez bien connu et que la chaîne d'entrée est limitée, vous pouvez vous en passer avec les règles. – Thien

Texte non structuré aux données structurées

Répondre

Questions connexes