2017-10-09 6 views
-1

Je travaillais sur un ensemble de données numériques et apparemment il s'agit d'une régression de sortie à variables multiples. Je voulais savoir si vous pouviez avoir une classification multi-étiquettes dans un ensemble de données numériques ou uniquement pour un texte. Par exemple: Stackoverflow un catégoriser chaque texte/code dans plusieurs étiquettes comme python,flask, python2.7 ... Mais quelque chose comme ça peut être fait avec des nombres. Désolé je sais que c'est une question noob mais je voulais connaître la réponse. Merci d'avance.est la classification multi-étiquettes pour le texte seulement

+0

Réalisez-vous que chaque question SO est mappée à un numéro unique? – Goyo

Répondre

1

Bien sûr, cela peut être fait avec des chiffres. Après tout, le texte lui-même est converti en nombres à classer. Mais vous ne devriez pas utiliser la régression pour cela. C'est clairement un cas pour la classification. Un classificateur ordinaire (par exemple, un réseau de neurones) a généralement plusieurs sorties, une pour chaque classe. Chaque sortie renvoie la probabilité que le vecteur d'entrée appartienne à cette classe particulière.

Dans la classification standard, vous l'affectez à la classe avec la probabilité maximale. Dans votre cas, il suffit assigner à toutes les classes pour lesquelles p > 0.5 (en supposant que la sortie est [0, 1].

En ce qui concerne la question de savoir si votre problème est une régression multiple ou un problème multi-classification, vous ne pouvez pas savoir Choisissez la régression si vous essayez de trouver des valeurs numériques dans une fourchette continue (par exemple, prédisez le prix et le nombre de ventes pour un produit donné) Choisissez la classification si vous avez un certain nombre d'attributs que l'entrée a ou n'a pas

+0

Merci pour ce monsieur. Je voulais savoir comment vous pouvez regarder un problème numérique et savoir s'il s'agit d'un problème de multi-régression ou de multi-étiquettes. Je suis désolé de demander noob Q, mais je dois demander :) – jason

+0

@jason: édité. En bref, si les résultats de votre ensemble de données sont continus, vous avez une régression. Si elles sont discrètes (valeurs entières uniquement) ou texte, vous avez une classification. –

+0

J'ai compris! . Merci. Où puis-je vous contacter si j'ai d'autres questions? Btw est multi-label et multi-classification sont 2 choses différentes non? – jason