Lorsque vous utilisez TF-IDF pour comparer le document A, B Je sais que la longueur du document n'est pas importante. Mais par rapport à A-B, A-C dans ce cas, je pense que la longueur du document B, C devrait être la même longueur.tf-idf: dois-je faire la normalisation des documents longueur
par exemple journal: 100 mots Document A: 20 mots document B: 30 mots
Connexion - A 's partition TF-IDF: 0.xx Log - B' s score TF-IDF : 0.xx
Dois-je normaliser le document A, B? (Si la cible de comparaison est différente, cela semble être un problème ou un mauvais résultat)
Merci pour votre commentaire. et j'ai une question .. J'ai trouvé "Ngram" juste en utilisant TF. Est-ce que Ngram a besoin de normaliser le document? Je pense que tf-idf et Ngram ont un algorithme similaire. – Acool5
@ Acool5 c'est exactement le même algorithme, la seule différence est que l'ensemble des termes entrant est généralement augmenté lors de l'utilisation de ngrams. –