Dans une application qui accepte, stocke, traite et affiche le texte Unicode (dans le but de la discussion, disons que c'est une application web), quels caractères doivent toujours être retirés du texte entrant ?assainissement texte nu minimum
je peux penser à certains, la plupart du temps répertorié dans la C0 and C1 control codes Wikipedia article:
La gamme
0x00
-0x19
(contrôle la plupart des caractères), à l'exclusion0x09
(onglet),0x0A
(LF) et0x0D
(CR)La gamme
0x7F
-0x9F
(caractères de commande)
Des plages de caractères qui peuvent être acceptés en toute sécurité serait encore mieux de savoir.
Il existe d'autres niveaux de filtrage de texte - on peut canoniser les caractères qui ont plusieurs représentations, remplacer les caractères insécables et supprimer les caractères de largeur nulle - mais je m'intéresse principalement aux bases.
Merci, mais je ne suis pas essayer de limiter le texte à caractères du clavier, je veux juste pour filtrer les caractères qui pourraient avoir des résultats inattendus ou dangereux, comme le caractère nul. – s4y