2010-11-09 3 views
0

Je me demandais s'il y avait un awk/regex sed que je peux utiliser pour détecter toutes les lignes qui contiennent des caractères non-anglais, par exemple:Comment détecter les caractères non anglais dans un fichier texte?

あと1つのスマッシュが見つからへん…もう寝よう 
ความหวังดีของคนเรา สุดท้าย 
Το θερμόμετρο χτυπάει 
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!! 

mais comme ils sont les messages twitter, je dois garder les lignes avec des liens, @ symboles, donc je crois que je cherche à détecter des caractères non-ASCIII?

Merci pour toute aide,

Tomek

+0

Quel est votre objectif final avec ceci? –

+0

Définir les caractères "anglais". la question n'as pas de sens. Essayez-vous simplement d'exclure les points de code au-dessus de 0177? – tchrist

Répondre

0

ce travail?

/[^a-z0-9]/i 
+0

Non, cela ne fonctionne pas. – tchrist

Questions connexes