J'essaye d'enlever la ponctuation en tokenizing une phrase dans python mais j'ai plusieurs "condtitions" où je veux ignorer tokenizing en utilisant la ponctuation. Quelques exemples sont quand je vois une URL, ou une adresse email ou certains symboles sans espaces à côté d'eux. Exemple:Python - tokenizer regex avec des conditions
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
tokenizer.tokenize("please help me ignore punctuation like . or , but at the same time don't ignore if it looks like a url i.e. google.com or google.co.uk. Sometimes I also want conditions where I see an equals sign between words such as myname=shecode")
En ce moment, la sortie ressemble
[ 's'il vous plaît', 'aide', 'me', 'ignore', 'la ponctuation', 'comme', 'ou', 'mais', 'at', 'the', 'same', 'time', 'ne pas', 'ignore', 'if', 'it', 'semble', 'like', 'a' ',' url ',' i ',' e ',' google ',' com ',' ou ',' google ',' co ', ' uk ',' Parfois ',' Je ',' aussi ' , 'want', 'conditions', 'where', 'I', 'voir', 'an', 'est égal', 'signer', 'entre', 'mots', 'tel', 'comme', 'myname', 'shecode']
Mais ce que je veux vraiment à ressembler est
[ 's'il vous plaît', 'aide', 'me', 'ignore', 'la ponctuation', 'comme', 'ou', 'mais', 'at', 'the', 'same', 'time', 'ne pas', 'ignore', 'if', 'it', 'semble', 'like', 'a' ',' url ',' i ',' e ',' google.com ',' ou ',' google.co.uk ', ' Parfois ',' I ',' aussi ',' vouloir ',' conditions ',' where ',' I ',' voir ', ' an ',' equals ',' signe ',' entre ',' mots ',' tels ',' as ', ' myname = shecode ' ]
Essayez d'utiliser "de word_tokenize import nltk.tokenize". Je ne suis pas sûr si cela va résoudre votre but. Mais essayez-le une fois. Merci. – Gunjan
Vous devriez: a) pré-marquer l'entrée sur les espaces; b) vérifier chaque morceau pour décider s'il s'agit d'une url ou non; et c) gérer les urls et les jetons non-url différemment. – alexis