2010-08-12 6 views
1
^[^\x00-\x1F\x7F-\xFF]+$ 

Ce regex correctement ne pas pour correspondre à une chaîne qui contient des caractères non-impression (00-1f hexagonale) ou ASCII étendus caractères (hex 80 FF), mais, contrairement à PHP, permet aux caractères utf-8 non-ASCII de passer. (Par exemple: 日本 واستقراره हिन्दी ދިވެހިބަސް ગુજરાતી 한)Javascript regex pour rejeter des caractères non ASCII US

En regardant le wikipedia page sur UTF-8, tout cela devrait tomber dans la plage 80-ff. Est-ce que quelqu'un sait ce que je manque? En outre, si vous pouviez expliquer comment ignorer le texte cité, vous seriez pour toujours mon héros.

Répondre

7

Hmm ... au lieu de rejeter les gammes d'octets, essayez correspondant à des caractères Unicode réels, .: par exemple

^[\u0020-\u007e]+$
+0

Merci de bien vouloir! – Greg

Questions connexes