2017-10-20 55 views
0

J'essaie d'analyser certains domaines Web (des dizaines de milliers) pour voir s'ils contiennent des mots anglais.Comment trouver si les mots anglais existent dans la chaîne

Il est facile pour moi d'analyser les domaines pour saisir la partie principale du domaine avec tldextract puis j'ai essayé d'utiliser enchant pour voir s'ils existent dans le dictionnaire anglais.

Le problème est que je ne sais pas comment diviser les domaines pour plusieurs mots à vérifier, à savoir latimes retours comme faux, mais times serait de retour si vrai.

Est-ce que quelqu'un sait une manière intelligente de regarder s'il y a un mot anglais contenu dans les chaînes?

Merci!

+1

ce n'est certainement pas la meilleure façon de résoudre tout problème que vous essayez de résoudre ... et dans beaucoup de cas, il peut toujours être ambigu –

+0

des suggestions? J'essaie de séparer une liste de domaines anglais et espagnol en deux listes. – Mojo713

+1

whynot lookthem up avec whois? –

Répondre

0

À moins que vous ayez besoin de le faire rapidement, vous pouvez simplement copier des lettres depuis le début ou la fin de la chaîne, et vérifier s'il s'agit d'un mot connu; Si c'est le cas, coupez-le et répétez. Avec, par exemple, 50k mots 20 lettres chacun, au pire vous ferez des recherches de 1M. Avec une recherche prenant par exemple 5ms (en frappant un disque dur à chaque fois), cela prendra 5000 secondes (environ 1,5 heures), plus court que ce que vous auriez passé à trouver un meilleur algorithme.