Comment détecter les caractères non anglais dans un fichier texte?

Je me demandais s'il y avait un awk/regex sed que je peux utiliser pour détecter toutes les lignes qui contiennent des caractères non-anglais, par exemple:Comment détecter les caractères non anglais dans un fichier texte?

あと１つのスマッシュが見つからへん…もう寝よう 
ความหวังดีของคนเรา สุดท้าย 
Το θερμόμετρο χτυπάει 
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!!

mais comme ils sont les messages twitter, je dois garder les lignes avec des liens, @ symboles, donc je crois que je cherche à détecter des caractères non-ASCIII?

Merci pour toute aide,

Tomek

Source

2010-11-09 Tomek

Quel est votre objectif final avec ceci? –

Définir les caractères "anglais". la question n'as pas de sens. Essayez-vous simplement d'exclure les points de code au-dessus de 0177? – tchrist

ce travail?

/[^a-z0-9]/i

Source

2010-11-09 16:24:16 zzzzBov

Non, cela ne fonctionne pas. – tchrist

Comment détecter les caractères non anglais dans un fichier texte?

Répondre

Questions connexes