0

J'ai essayé d'utiliser la fonctionnalité NER de NLTK. Je veux extraire de telles entités des articles. Je sais que cela ne peut pas être parfait, mais je me demande s'il y a une intervention humaine pour marquer manuellement les NE, cela va-t-il s'améliorer?NLTK NER: apprentissage continu

Si oui, est-il possible avec le modèle actuel en NLTK de former continuellement le modèle. (Entraînement semi-supervisé)

+0

réponse courte, pas vraiment. =) – alvas

+0

Connaissez-vous d'autres outils qui supportent la formation continue? – mousecoder

+0

Désolé, je ne connais pas mais sûrement dans 'NLTK', il ne supporte pas les annotations manuelles, jusqu'à ce que quelqu'un veuille bien coder le wrapper GUI' brat' pour 'NLTK'. L'interaction humaine dans la PNL est toujours difficile à coder car elle nécessite normalement une sorte d'interface graphique. – alvas

Répondre

1

Le fragment NER de vanille ordinaire fourni en interne par nltk utilise un fragment d'entropie maximal formé sur le corpus ACE. Il n'est donc pas possible d'identifier les dates ou les heures, à moins que vous ne les entraîniez avec votre propre classificateur et vos propres données (ce qui est un travail assez minutieux).

Vous pouvez vous référer à ce code link pour effectuer la même chose.

De plus, il existe un module appelé timex dans nltk_contrib qui pourrait vous aider avec vos besoins.

Si vous êtes intéressé à effectuer la même chose dans Java mieux regarder dans Stanford SUTime, il fait partie de Stanford CoreNLP.