EDIT: J'essaie de classer une nouvelle révision d'utilisateur dans un ensemble de balises prédéfini. Chaque révision peut avoir plusieurs tags associés.API de prédiction Google - Création de données d'apprentissage de classificateurs
J'ai cartographié mes DB avis sur 15 catégories, L'exemple suivant montre le texte, le raisonnement des catégories cartographiés
USER_REVIEWS | CATÉGORIES
"Meilleur pizza
jamais, nous avons vraiment adoré cet endroit, our kids
..." | "nourriture, famille"
"The ATV tour was extreme
et le nature was beautiful
..." | "Actif, famille"
pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature
EDIT: J'ai essayé 2 approches de données de formation:
La première comprend toutes les catégories dans un seul fichier comme ceci:
"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."
La deuxième approche partageais les données de formation pour 15 fichiers séparés comme ceci:
family_training_data. csv:
"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."
non de ce qui précède ont été concluants, et a manqué le marquage la plupart du temps.
Voici quelques questions qui ont été soulevées, alors que je faisais des expériences:
- Certains de mes commentaires sont très longs (plus de 300 mots), dois-je limiter les mots sur mon fichier de données de formation , de sorte qu'il correspondra au nombre moyen de mots de revue (80)? Est-il préférable de séparer les données à 15 fichiers de données d'entraînement, avec l'option VRAI/FAUX, c'est-à-dire: (est le texte de révision d'une catégorie spécifique), ou mélanger toutes les catégories dans un fichier de données d'entraînement?
- Comment puis-je former le modèle pour trouver des synonymes ou des mots clés connexes, il peut marquer « Le
motorbike
tour était super » commeactive
bien que les données de formation avaient un record pourATV
tour
Iv'e essayé quelques approches comme décrit ci-dessus, sans de bons résultats.
Q: Quel format de données d'entraînement donnerait les meilleurs résultats?
Vous avez donné une très large série de questions; Je pense que cela dépasse la gamme d'applications StackOverflow. En l'état, je ne pense pas pouvoir répondre à cette question. Quel problème spécifique essayez-vous de résoudre? Qu'est-ce qui constitue de "bons résultats"? Quels sont vos critères pour "meilleurs résultats"? Pourquoi voulez-vous * former * un modèle à un lexique, alors que c'est généralement une tâche dirigée? – Prune
Merci pour votre réponse, je vais essayer d'élaborer. Le problème que j'essaie de résoudre consiste à classer les avis dans des balises prédéfinies, au moment où les résultats obtenus (la plupart du temps) ne sont pas concluants, ou si les balises sont manquantes, de bons résultats seraient corrigés à 80% les temps. Comme je ne suis pas un expert dans la construction de données d'entraînement, je suis venu ici avec beaucoup d'incertitudes. –
S'il vous plaît vérifier mes modifications :) –