Voici le problème:Vous cherchez une expression régulière, y compris aplhanumeric + "&" et ";"
split=re.compile('\\W*')
Cette expression régulière fonctionne très bien lorsqu'ils traitent avec des mots ordinaires, mais il y a des occasions où j'ai besoin l'expression d'inclure des mots comme käyttäj&aml;auml;
. Que dois-je ajouter à la regex pour inclure les caractères &
et ;
?
qui correspondra à des choses comme abc; & def ... Il essaie de faire correspondre les entités HTML. – Sklivvz
Eh bien, ce n'est pas ce que la question dit ... – PierreBdR
Le dernier presque travaillé, donc j'ai travaillé à partir de là. (\\ W + &\\W+;) * fait l'affaire pour moi. –