2

EDIT: J'essaie de classer une nouvelle révision d'utilisateur dans un ensemble de balises prédéfini. Chaque révision peut avoir plusieurs tags associés.API de prédiction Google - Création de données d'apprentissage de classificateurs

J'ai cartographié mes DB avis sur 15 catégories, L'exemple suivant montre le texte, le raisonnement des catégories cartographiés


USER_REVIEWS | CATÉGORIES
"Meilleur pizza jamais, nous avons vraiment adoré cet endroit, our kids ..." | "nourriture, famille"
"The ATV tour was extreme et le nature was beautiful ..." | "Actif, famille"

pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature


EDIT: J'ai essayé 2 approches de données de formation:

La première comprend toutes les catégories dans un seul fichier comme ceci:

"food","Best pizza ever, we really loved this place, our kids..." 
"family","Best pizza ever, we really loved this place, our kids..." 

La deuxième approche partageais les données de formation pour 15 fichiers séparés comme ceci:

family_training_data. csv:

"true" , "Best pizza ever, we really loved this place, our kids..." 
"false" , "The ATV tour was extreme and the nature was beautiful ..." 

non de ce qui précède ont été concluants, et a manqué le marquage la plupart du temps.


Voici quelques questions qui ont été soulevées, alors que je faisais des expériences:

  1. Certains de mes commentaires sont très longs (plus de 300 mots), dois-je limiter les mots sur mon fichier de données de formation , de sorte qu'il correspondra au nombre moyen de mots de revue (80)? Est-il préférable de séparer les données à 15 fichiers de données d'entraînement, avec l'option VRAI/FAUX, c'est-à-dire: (est le texte de révision d'une catégorie spécifique), ou mélanger toutes les catégories dans un fichier de données d'entraînement?
  2. Comment puis-je former le modèle pour trouver des synonymes ou des mots clés connexes, il peut marquer « Le motorbike tour était super » comme active bien que les données de formation avaient un record pour ATV tour

Iv'e essayé quelques approches comme décrit ci-dessus, sans de bons résultats.
Q: Quel format de données d'entraînement donnerait les meilleurs résultats?

+0

Vous avez donné une très large série de questions; Je pense que cela dépasse la gamme d'applications StackOverflow. En l'état, je ne pense pas pouvoir répondre à cette question. Quel problème spécifique essayez-vous de résoudre? Qu'est-ce qui constitue de "bons résultats"? Quels sont vos critères pour "meilleurs résultats"? Pourquoi voulez-vous * former * un modèle à un lexique, alors que c'est généralement une tâche dirigée? – Prune

+0

Merci pour votre réponse, je vais essayer d'élaborer. Le problème que j'essaie de résoudre consiste à classer les avis dans des balises prédéfinies, au moment où les résultats obtenus (la plupart du temps) ne sont pas concluants, ou si les balises sont manquantes, de bons résultats seraient corrigés à 80% les temps. Comme je ne suis pas un expert dans la construction de données d'entraînement, je suis venu ici avec beaucoup d'incertitudes. –

+0

S'il vous plaît vérifier mes modifications :) –

Répondre

1

Après avoir fait face à des problèmes similaires, voici mes idées au sujet de vos questions:

  1. Selon WATSON langage naturel classificateur documentation il est préférable de limiter la longueur du texte d'entrée à moins de 60 mots, donc je suppose que l'aide votre moyenne de 80 mots produira de meilleurs résultats
  2. Vous pouvez aller dans les deux sens, mais des fichiers séparés produiront des résultats plus univoques
  3. créer un synonyme graphique, comme suggéré serait un bon point de départ, WATSON vise à répondre à un solution cognitive plus complexe.

D'autres conseils de directives aider WATSON:

  • Limiter la longueur du texte d'entrée à moins de 60 mots.
  • Limiter le nombre de classes à plusieurs centaines de classes. La prise en charge des grands nombres de classes peut être incluse dans les versions ultérieures du service.
  • Lorsque chaque enregistrement de texte a une seule classe, assurez-vous que chaque classe est avec au moins 5 - 10 enregistrements pour fournir une formation suffisante sur cette classe. Il peut être difficile de décider d'inclure plusieurs classes pour un texte. Deux raisons courantes expliquent plusieurs classes:
    • Lorsque le texte est vague, l'identification d'une seule classe n'est pas toujours claire.
    • Lorsque les experts interprètent le texte de différentes manières, plusieurs classes prennent en charge ces interprétations.
  • Cependant, si de nombreux textes dans votre formation données comprennent plusieurs classes, ou si certains textes ont plus de trois classes , vous pourriez avoir besoin d'affiner les classes. Par exemple, examinez si les classes sont hiérarchiques. S'ils sont hiérarchiques, inclut le nœud feuille en tant que classe.
2

Je commencerai par les parties auxquelles je peux répondre avec les informations données. Peut-être que nous pouvons affiner vos questions à partir de là. Question 3: Vous ne pouvez pas former un modèle pour reconnaître un nouveau mot de vocabulaire sans contexte de support. Ce n'est pas seulement que la «moto» n'est pas dans l'ensemble d'entraînement, mais cette «promenade» n'est pas non plus dans l'ensemble d'entraînement, et les autres mots dans la revue ne concernent pas le transport. Les informations cognitives que vous recherchez ne se trouvent tout simplement pas dans les données que vous présentez.

Question 2: Cela dépend de la méthode d'entraînement que vous envisagez. Vous pouvez attribuer à chaque balise une colonne de fonction distincte avec une valeur true/false. Ceci est fonctionnellement équivalent à 15 fichiers de données séparés, chacun avec une seule valeur vrai/faux. La méthode à un fichier vous donne la possibilité d'étendre ultérieurement à un support de contexte entre les catégories.

Question 1: La longueur, elle-même, n'est pas particulièrement pertinente, sauf que la suppression des mots improductifs aidera à focaliser l'entraînement - vous n'obtiendrez pas autant de classifications erronées à partir de corrélations incidentelles. Avez-vous un moyen de réduire la taille par programme? Pouvez-vous l'appliquer à la nouvelle entrée que vous voulez classer? Sinon, je ne suis pas sûr que cela en vaille la peine.


des problèmes en suspens

Quelles preuves empiriques avez-vous que la précision de 80% est possible avec les données fournies? Si les données d'apprentissage ne contiennent pas les informations théoriques nécessaires pour étiqueter correctement ces données, vous n'avez aucune chance d'obtenir le modèle que vous souhaitez. L'application choisie a-t-elle assez d'intelligence pour diviser l'analyse en mots? Y at-il une connaissance de l'ordre des mots ou de la sémantique - et avez-vous besoin de cela?

+0

Je n'ai aucune preuve que 80% ~ est possible, c'est juste mon objectif, je regardais Alchemy (http://www.alchemyapi.com/products/demo/alchemylanguage) en particulier à la section de taxonomie pour l'inspiration. Quelle serait la bonne façon d'ajouter des informations cognitives à mes données d'entraînement? –

+0

Il n'y a pas de * one * correct; Cela dépend de l'information cognitive que vous voulez ajouter et de la conception du système que vous construisez. Merci pour le lien Alchemy; c'est un système charmant et sophistiqué. Réalisez que c'est une pièce vitrine pour un produit complexe et publié. Grande inspiration, mais un grand projet. – Prune

+0

J'avoue que je me sens comme cette discussion est à la fois égaré (n'appartient pas à SO) et manque de concentration. Mon problème est que je ne sais pas ce que vous voulez comme résultat de votre publication. Vous avez posé plusieurs questions spécifiques à la mise en œuvre, mais lorsque je pose des questions sur les concepts de niveau supérieur de ce système, j'ai une autre question à la place d'une réponse solide. Alors ... à quelle étape ce projet est-il? Quel est l'objectif du projet, et quelles sont vos ressources disponibles et votre calendrier? Qu'avez-vous en termes de buts, d'objectifs, d'exigences et de spécifications? Cela m'aide à donner des commentaires utiles. – Prune