Je suis très nouveau dans le domaine de la PNL et je suis intéressé à détecter le poste/désignation/rôle avec leur nom, email, numéro de téléphone, etc J'ai essayé d'utiliser stanford PNL pour détecter les noms du texte. L'analyse du courrier électronique et du numéro de téléphone semble assez simple. Je suis incapable de détecter cependant la désignation d'un texte donné.Détecter la désignation des employés du texte en utilisant ner/nlp
Par exemple, voici quelques exemples d'échantillons de texte
1) directeur médical, le Dr. UN B. Ahmad, example1 @ example.com
Nom: Dr. UN B. Ahmad, Email: [email protected]
2) Sous-Doyens Académiques Prof. S. Antony [email protected]
Nom: Prof. S. Antony, Email: [email protected]
3) Sous-doyens universitaires & PG-Cell & Surg. Discipline Resident Trg. Programe, Mr. Sandeep
Nom: M. Sandeep, Email: aucun
4) Directeur, réseau, Robert Adams, example3 @ example.com, 9900131213
Nom: Robert Adams, Email: [email protected], Téléphone: 9900131213
Je ne suis pas intéressé par les algorithmes d'appariement de regex puisque la nature du texte est non déterministe. Ce qui m'intéresse est de savoir comment puis-je extraire les désignations ci-dessus du texte. Toute solution même au-delà de stanford NLP comme l'utilisation de nltk, lingpipe etc est très bien. Si j'utilise stanford PNL, comment puis-je construire un modèle de formation pour le même avec un type d'entité différente comme "POSITION" ou "DÉSIGNATION" et comment puis-je inclure ce modèle avec mes autres modèles (je cours stanford PNL dans le serveur mode).
Vous devrez former votre propre modèle NER, en introduisant votre propre étiquette "DESIGNATION" dans votre ensemble d'entraînement. Jetez un oeil à leur documentaion. http://nlp.stanford.edu/software/crf-faq.shtml#a – meghamind
pour former stanford parser pour «désignation» vous avez besoin de beaucoup de données d'entraînement pour que vous devez collecter des données plus volumineuses car une petite quantité de données peut ne pas donner vous corrigez les données –