J'utilise la PNL StanfordCore Library pour mon project.It utilise pour TBP Tokenizer tokenization.For une déclaration qui va comme this- go to room no. #2145
ouComment définir les délimiteurs pour tokenizer PTB?
go to room no. *2145
est tokenizer division # 2145 en deux jetons: # 2145 . Est-il possible de paramétrer le tokenizer pour qu'il n'identifie pas #, * comme un délimiteur?
J'ai essayé cela auparavant. Cela ne fonctionne que lorsque nous avons une phrase à marquer. Si le texte d'entrée est quelque chose comme - "aller à la pièce * 2005.Pick up un stylo." Il identifie "* 2005pick" comme un seul jeton – AV94