J'ai un flux d'octets qui peut être des données UTF-8 ou peut-être une image binaire. Je devrais être en mesure de faire une estimation éclairée sur lequel il est en inspectant les 100 premiers octets ou plus.Quelle est une bonne heuristique pour voir si un ensemble d'octets sont encodés en UTF-8 en Java?
Cependant, je n'ai pas compris exactement comment faire cela en Java. J'ai essayé de faire des choses comme ceci:
new String (octets, "UTF-8"). Substring (0,100) .matches (". * [^ \ P {Print}]") pour voir si le Les 100 premiers caractères contiennent des caractères non imprimables, mais cela ne semble pas fonctionner.
Y a-t-il une meilleure façon de procéder?
Bien que ce lien puisse répondre à la question, il est préférable d'inclure les parties essentielles de la réponse ici et de fournir le lien pour référence. Les réponses à lien uniquement peuvent devenir invalides si la page liée change. –
@ S.L.Barth: Ceci est juste un pointeur vers une lib qui pourrait aider, pas une réponse complète. Cela semble légitime cependant. – Seki