Beaucoup d'algorithmes et de bibliothèques de traitement du langage naturel (NLP) ont du mal à travailler avec des textes aléatoires du web, généralement parce qu'ils supposent une écriture claire et articulée. Je peux comprendre pourquoi cela serait plus facile que d'analyser les commentaires YouTube.Comment déterminer automatiquement la qualité du texte?
Ma question est la suivante: étant donné un morceau de texte aléatoire, y a-t-il un processus pour déterminer si ce texte est bien écrit, et est un bon candidat pour une utilisation en PNL? Quel est le nom général de ces algorithmes? J'apprécierais des liens vers des articles, des algorithmes ou des bibliothèques de code, mais je me contenterais de bons termes de recherche.