Vous devez développer une heuristique qui obtiendra des correspondances probables hors du domaine. La façon dont je le ferais est d'abord de trouver un grand corpus de texte. Par exemple, vous pouvez télécharger Wikipedia.
Ensuite, prenez votre corpus, et combinez tous les deux mots adjacents. Par exemple, si votre phrase est:
quick brown fox jumps over the lazy dog
Vous allez créer une liste:
quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog
Chacun de ces facteurs pourrait avoir un compte d'une. En analysant votre corpus, vous garderez trace des paires de fréquences de deux mots. De plus, pour chaque paire, vous devrez trier les deux mots d'origine.
Triez cette liste en fonction de la fréquence, puis tentez de trouver des correspondances dans votre domaine en fonction de ces mots.
Enfin, effectuez un contrôle de domaine pour les deux phrases de mots qui ne sont pas enregistrés!
Je pense que les sites comme DomainTool prennent une liste des mots les mieux classés. Ils essaient ensuite d'analyser ces mots en premier. Selon le but, vous pouvez envisager d'utiliser MTurk pour faire le travail. Différentes personnes analyseront différemment les mêmes mots et ne le feront peut-être pas proportionnellement à la fréquence des mots.
Quel langage de programmation? – rahul
PHP, édité ma question pour inclure cela, merci. – Kevin
exécuter sur la chaîne à l'envers avec pspell check - eseehc = fromage, soustraire le fromage de la chaîne, ekil = like, soustraire comme de la chaîne = like; s, sl, sle, slet, sleto, sletoh = hôtels, soustraire des hôtels ... etc vous pouvez également l'exécuter plusieurs fois et inclure les dernières trouvailles sans les enlever. chaîne inverse pspell est un moyen très facile de trouver des mots "réels" dans n'importe quelle langue. – Tobias