2017-10-19 18 views
0

J'ai récemment commencé un voyage en PNL en utilisant SpaCy, et j'ai ~ 5.500 chaînes que je veux étiqueter. Pour les 100 premiers, je l'ai fait en utilisant une feuille de calcul avec des colonnes personnalisées, qui a ensuite été exécuté à travers un script pour générer des dictionnaires Python. Dans la feuille, j'ai strored la chaîne, le type d'étiquette, la valeur d'étiquette. Le script calcule ensuite la position de la valeur de l'étiquette dans la chaîne.Méthodes de création de données d'entraînement pour les modèles SpaCy?

Les données d'apprentissage de ce produit prennent beaucoup de temps et sont susceptibles d'erreurs.

Existe-t-il des outils disponibles pour vous aider? J'ai juste besoin littéralement de mettre en évidence une sous-chaîne, puis de choisir le type d'étiquette. Je pourrais le construire moi-même, mais je pense qu'il pourrait déjà exister.

Répondre

1

Je suis l'un des responsables de spaCy et nous avons beaucoup réfléchi à ce problème! Nous avons donc construit Prodigy, un outil d'annotation qui s'intègre à spaCy et met le modèle dans la boucle pour vous aider à former et évaluer les modèles plus rapidement. Il est actuellement en version bêta, mais vous pouvez vous inscrire pour une invitation gratuite. Prodigy adopte une approche légèrement différente du concept click-drag-highlight-select des autres outils d'annotation. Il utilise le modèle dans la boucle pour suggérer des annotations avec le gradient le plus pertinent pour l'entraînement, et ne vous demande qu'un simple retour binaire: accepter ou rejeter. Cela vous permet de parcourir rapidement des exemples. Comme vous annotez, le modèle dans la boucle est mis à jour, et ses prédictions influenceront ce que Prodigy demande ensuite.

Cela fonctionne particulièrement bien si vous cherchez à améliorer les types d'entités existants présents dans votre modèle spaCy, ou si vous travaillez avec un grand corpus d'exemple de texte que vous souhaitez utiliser pour l'annotation.

Si vous recherchez un outil plus spécifique pour mettre en surbrillance et annoter des plages de texte, consultez également Brat. Je ne suis pas sûr à 100% à quoi ressemble la sortie, mais vous devriez certainement être capable de le convertir au format de formation de spaCy. Il y a aussi un trainable version of the displaCy ENT visualizer, développé par quelqu'un de la communauté.

+0

Hey Ines, merci pour la réponse. Je me suis inscrit à la bêta hier, en attendant d'être accepté. –

+1

Ah cool! Nous avons envoyé des invitations dans des lots plus petits pour nous assurer que nous pouvons corriger les bogues rapidement. Si vous le souhaitez, vous pouvez m'envoyer un e-mail afin que je sache qui vous êtes et que je puisse m'assurer que nous vous ajoutions au prochain lot d'invitations :) –

+0

Génial, email envoyé. Je vous remercie! –