2017-05-19 5 views
0

Je travaille sur un projet d'exploration de texte par la bibliothèque WEKA de Java. Dans l'étape de prétraitement, j'ai appliqué le filtre StringToWordVector. Dans ce filtre, j'ai défini plusieurs options comme la segmentation des jetons, l'arrêt des mots, l'élimination et le schéma de pondération TF-IDF.
J'ai quelques questions: 1- est-il nécessaire de faire un processus de sélection de caractéristiques dans tous les projets d'exploration de texte? 2- est-il nécessaire d'estimer la similarité des documents, par exemple: en utilisant la similarité cosinus? ou ces deux options sont-elles optionnelles? et est filtre StringToWordVector fait certains d'entre eux?sélection de fonction et estimation de la similarité des documents dans l'exploration de texte

Répondre

0
  1. Ce n'est pas nécessaire. Personne ne vous impose ce pas. Mais les résultats s'améliorent généralement avec les méthodes de sélection de caractéristiques appropriées.

  2. Il est nécessaire que ce soit un objectif de votre projet; il n'est imposé par aucun moyen. Le filtre StringToWordVector ne fait que cela, convertissez vos chaînes en wordVectors pour un traitement ultérieur ou une analyse. C'est à vous de décider ce que vous calculez à partir de vos données. Si vous avez besoin d'une mesure de similarité, alors la distance en cosinus est une mesure appropriée.