J'ai une confusion entre CountVectorizer et CharNGramAnalyzer. Selon ma compréhension,Quelle est la différence entre CountVectorizer et CharNGramAnalyzer dans scikit-learn?
- CountVectorizer construit une matrice de comptage où les lignes sont occurrences nombre de mots différents en tenant compte de la parcimonie de grande dimension.
- CharNGramAnalyzer génère une matrice de comptage où les lignes sont des occurrences de différents caractères. Comme il ne prend pas en compte les mots, il ne nécessite pas de connaître la séparation entre les mots et fonctionne bien pour les langues autres que l'anglais.
Ai-je raison de comprendre? Sinon, je voudrais une explication détaillée ou une source expliquant cela.
Si ma réponse résout et répond à la question, veuillez la marquer comme réponse. –