La recherche dans un fichier écrit en hindi (Devanagri) (UTF-16) a donné lieu au problème suivant.Recherche d'un texte Unicode à l'aide de regex
Le fichier contient:
त्रास ततत जुग नींद ना हा बु
Notez que le premier char 'त्र' est un point de code multiple de त + ् + र Maintenant, alors que recherche de 'त' J'obtiens 4 parties dont le त du premier caractère. J'utilise Java.
Comment puis-je rechercher les 'त' qui ne font pas partie de plusieurs points de code.
Toute aide sera appréciée. :)
Merci Sean :) Le lookahead négatif fonctionne bien. –