La question est basée sur une mauvaise compréhension de l'Unicode. Unicode est un moyen de représenter systèmes d'écriture, pas les langues. Imaginez une chaîne unicode composée des trois points de code U + 0073, U + 0069 et U + 006e, c'est-à-dire "sin". Est-ce l'anglais? Est-ce le mot espagnol pour "sans"? Est-ce "ça" dans n'importe laquelle de plusieurs langues scandinaves? Qui sait.
Vous mentionnez le géorgien et l'hindi. L'écriture géorgienne (ქართული დამწერლობა) peut être utilisée pour représenter le géorgien, bien sûr, mais aussi le mingrélien, le svan et d'autres langues encore plus rares. Il n'y a pas de script "hindi", pas plus qu'il n'y a de lettres "anglaises". Comme l'anglais est écrit en lettres latines que nous avons héritées de nos ancêtres latins, l'hindi est écrit en Devanāgarī (देवनागरी), un beau script qui est aussi utilisé pour le sanskrit ancien et le marathi moderne et le népali et des dizaines d'autres langues. Et ne me lancez pas sur le chinois. Si vous êtes pressé et devez accepter une quasi-solution hackish, vous pouvez faire des approximations: "puisque ce personnage est de la gamme Devanāgarī (U + 0900-U + 097F) ou des gammes géorgiennes (U + 10A0- U + 10FC et U + 2D00-U + 2D25), je suppose que c'est probablement hindi ou probablement géorgien. " Une telle méthode serait sujette aux erreurs et vague, mais vous pouvez commencer avec la table de plage here.
Merci beaucoup. C'était aussi ce que j'avais en tête. Se demandait s'il y avait une alternative puisque cette méthode est très sujette aux erreurs. – Mode