Je travaille sur un algorithme pour estimer sentence difficulty, mais les méthodes que j'ai trouvées semblent trop vieilles pour tirer parti de ce que les ordinateurs modernes peuvent faire.Algorithme de lisibilité des phrases à jour
Les algorithmes utilisés aujourd'hui ont surtout été développés il y a environ 40 à 60 ans. Flesch-Kincaid est le plus populaire et est toujours utilisé comme la norme pour les documents par le ministère de la Défense et de nombreux États et entreprises. J'ai examiné le niveau de qualité Flesch-Kincaid, l'indice de brouillard de Gunning, l'indice de SMOG, la formule de lisibilité de Fry et l'indice Coleman-Liau.
J'ai décidé d'utiliser le Lisibilité automatisé Indice
ARI = 4.71 * (characters/words) + .5 * (words/sentences) - 21.43;
Il me semble que ce ne serait pas difficile d'attribuer une valeur à chaque mot en fonction des listes de fréquences de mot basé sur corpus et le fonctionnement de ces valeurs dans l'ancienne formule de lisibilité.
Cela pourrait être fait pour les 1000 à 5000 premiers mots les plus fréquents. De même, il serait probablement efficace de faire des listes séparées pour différents types de mots et de parties du discours. La présence de conjonctions serait certainement un signe de complexité de la phrase.
Existe-t-il des formules pour cela?
Je ne pense pas que l'étiquette ActionScript avec cette question va vous aider à obtenir la meilleure réponse. Essayez de poster dans le forum de programmation/échange de la pile – Ryan
Merci de me pointer dans la bonne direction. – oppositefrog
J'ai fait une démo contenant aussi ARI il y a quelques années: http://lt3.hogent.be/fr/demos/readability/. Entrez un texte et vous obtenez tous les scores.Cliquez sur les liens dans les résultats pour obtenir de la documentation sur notre implémentation. – pvoosten