J'apprécierais vraiment vos pensées sur la meilleure approche au problème suivant. J'utilise un exemple d'annonce de voiture classifiée qui est similaire dans la nature pour donner une idée.Aide: Extraction de tuples de données à partir du texte ... Regex ou apprentissage automatique?
Problème: Extraction d'un n-uplet de données à partir du texte donné.
Voici quelques caractéristiques des données.
Le vocabulaire (mots) dans le texte est limité à un domaine spécifique. Supposons 100-200 mots au maximum.
Le texte qui doit être analysé est un titre comme les données d'annonce de voiture présentées ci-dessous. Donc chaque enregistrement correspond à un tuple (ligne).
Dans certains cas, certains attributs peuvent être manquants. Par exemple, dans la ligne de données brutes n ° 5 ci-dessous, l'année est manquante.
Certains mots vont ensemble (bigrammes). Comme "Low miles".
données historiques disponibles = 10.000 enregistrements
entrant Nouveau volume de données = 1000-1500 records/semaine
Le résultat attendu devrait être sous la forme de (année, marque, modèle, fonctionnalité). Ainsi, la sortie devrait ressembler à
1 -> (2009, Ford, Fusion, SE)
2 -> (1997, Ford, Taurus, Wagon)
3 -> (2000, Mitsubishi, Mirage, DE)
4 -> (2007, Ford, Expedition, EL Limited)
5 -> (, Honda, Accord, EX)
....
....
Raw Titre données:
1 -> 2009 Ford Fusion SE - 7000 $
2 -> 1997 Ford Taurus Wagon - 800 $ (San José est)
3 -> '00 Mitsubishi Mirage DE - 2499 $ (saratoga) pic
4 -> 2007 Ford Expedition EL limitée - 7800 $ (x)
5 -> Honda Accord ex miles faible - 2800 $ (dublin/Pleasanton/livermore) pic
6 -> 2004 HONDA ODASSEY LX 68K MILES - 10800 $ (danville/san ramon)
7 -> 93 MARQUE LINCOLN - 2000 $ (oakland east) pic
8 -> ###### 2006 LEXUS GS 430 NOIR SUR NOIR 114KMI ####### - $ 19700 (san rafael) pic
9 -> 2004 Audi A4 1.8T FWD - $ 8900 (Sacramento) pic
10 -> ####### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI BLANC 4X4 ####### - $ 10575 (san rafael) cliché
11 -> 1990 Toyota Corolla RUNS BON! GAZ SAVER! 5SPEED CLEAN! REG 2011 O.B.O - $ 1600 (vallée de hayward/castro) img
12 -> HONDA ACCORD EX 2000 - $ 4900 (dublin/pleasanton/livermore) pic
13 -> 2009 Chevy Silverado LT à cabine double - 23900 $ (dublin/pleasanton/livermore) pic
14 -> 2010 Acura TSX - V6 - TECH - 299,00 $ (dublin/Pleasanton/livermore) pic
15 -> 2003 Nissan Altima - 1830 $ (SF) pic
choix possibles:
- Une machine à apprendre ning Texte classificateur (Naive Bayes etc)
- Regex
Ce que je suis en train de comprendre est si RegEx est trop compliqué pour le travail et un classificateur de texte est un surpuissant?
Si le choix est d'aller avec un classificateur de texte alors qu'est-ce que vous considérez comme le plus facile à mettre en œuvre.
Merci d'avance pour votre aide.
Avez-vous des données étiquetées pour entraîner/tester des algorithmes? Cela peut limiter le type d'approches que vous pouvez appliquer à partir d'une perspective d'apprentissage automatique (par exemple, la modélisation linguistique nécessite un corpus de bonne taille). – jeff7
oui. J'ai beaucoup de données à des fins de formation ... –