Je cherche un moyen de déterminer automatiquement le langage naturel utilisé par une page de site Web, compte tenu de son URL.Déterminer automatiquement le langage naturel d'une page Web donné son URL
En Python, une fonction comme:
def LanguageUsed (url):
#stuff
qui retourne un spécificateur de langue (par exemple, 'en' pour l'anglais, 'jp' pour le japonais, etc ...)
Sommaire des résultats: J'ai une solution raisonnable de travailler en Python en utilisant code from the PyPi for oice.langdet. Il fait un travail décent en distinguant anglais et non-anglais, ce qui est tout ce dont j'ai besoin pour le moment. Notez que vous devez récupérer le code HTML en utilisant Python urllib. En outre, oice.langdet est une licence GPL.
Pour une solution plus générale utilisant Trigrams en Python comme d'autres l'ont suggéré, voir ceci Python Cookbook Recipe from ActiveState. L'API Google Natural Language Detection fonctionne très bien (si ce n'est la meilleure que j'ai vue). Cependant, c'est Javascript et leur TOS interdit d'automatiser son utilisation.
est tout à fait inutile Géolocalisation. Le monde a beaucoup d'endroits où plusieurs langues coexistent. Et les sites Web peuvent également avoir plusieurs langues –
Tout ce que j'ai dit, c'est que c'est mieux que TLD, ce que certaines personnes suggèrent, et j'ai abordé le problème des langues multiples. – tghw