2017-06-19 1 views
0

J'étudie un peu de ML et je suis coincé. Supposons que je veuille faire une classification de texte en utilisant k voisins. J'utilise tfidf vectorizer pour créer un document-terme Matrix où pour chaque cellule est stockée la valeur tf-idf. Maintenant, comment puis-je tracer des points sur l'avion? Je veux dire pour x1-y1, y1 est la classe prédite du document 1, mais x?Caractéristiques dans KNN dans un avion

Chaque terme dans le document X1 est un élément du vecteur? Je veux dire que je ne peux pas vraiment comprendre dans la classification du texte quels sont les points sur le plan et comment les visualiser. Merci.

Répondre

0

En général, il est impossible de tracer des données de texte sur un plan, comme on tracerait un ensemble de points (x, y).

Sur un plan, une option consiste à sélectionner deux dimensions de valeurs x, la classe de document étant représentée à l'aide de la couleur ou de la forme du point. Ici, les valeurs x sont les valeurs tf-idf que vous avez calculées. Typiquement, la matrice tf-idf a tendance à être éparse, donc cette visualisation peut ne pas être utile.

Une technique généralement utilisée dans le traitement de texte consiste à effectuer une réduction de dimensionnalité sur la matrice tf-idf, et à représenter les documents dans un espace réduit. LSA est une méthode pour le faire. Chaque document est alors représenté comme un point dans le nouvel espace. En choisissant les deux premières dimensions comme valeurs x et y, les documents peuvent maintenant être mieux visualisés.

Ceci est juste un exemple d'une visualisation. Si vous avez une meilleure idée du type de relations que vous voulez identifier, cela peut être utilisé pour guider le choix de la méthode de visualisation.