Je souhaite ajouter un cas spécial pour tokenization dans spacy selon le documentation. La documentation montre comment des mots spécifiques peuvent être considérés comme des cas spéciaux. Je veux être en mesure de spécifier un motif (par exemple un suffixe). Par exemple, j'ai une chaîne comme cespacy ajouter des règles de tokenisation de cas spéciales par expression régulière ou par motif
text = "A sample string with <word-1> and <word-2>"
où <word-i>
spécifie un seul mot.
Je sais que je peux l'avoir pour un cas particulier à la fois par le code suivant. Mais comment puis-je spécifier un modèle pour cela?
import spacy
from spacy.symbols import ORTH
nlp = spacy.load('en', vectors=False,parser=False, entity=False)
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}])