2016-12-15 3 views
0

Je dois apprendre le gain d'information pour la sélection de fonction en ce moment, Mais je n'ai pas la compréhension claire à ce sujet. Je suis un débutant, et je suis confus à ce sujet.Comment le gain d'information fonctionne dans la classification de texte

Comment utiliser IG dans la sélection de fonctions (calcul manuel)?

je viens de la moindre idée ce .. qui ont quelqu'un peut me aider à utiliser le formula

enter image description here

alors c'est l'exemple example

enter image description here

+0

s'il vous plaît expliquer ce que vous faites et ne comprennent pas (la formule? Dans le but d'obtenir des informations? Comment coder ? Quelle est une probabilité?) –

+0

J'espère que mon explication vous aidera. –

Répondre

0

Comment utiliser le gain d'information dans la sélection des fonctionnalités?

gain d'information (InfoGain(t)) mesure le nombre de bits d'information obtenus pour la prédiction d'une classe (c) en connaissant la présence ou l'absence d'un terme (t) dans un document.

De manière concise, le gain d'information est une mesure de la réduction de l'entropie de la variable de classe après l'observation de la valeur de la caractéristique. En d'autres termes, le gain d'information pour la classification est une mesure de la fréquence à laquelle une caractéristique est commune à une classe particulière par rapport à la fréquence de cette caractéristique dans toutes les autres classes.

Dans la classification de texte, caractéristique signifie que les termes sont apparus dans les documents (a.k.a corpus). Considérons, deux termes dans le corpus - term1 et term2. Si term1 réduit l'entropie de la variable de classe d'une valeur supérieure à term2, alors term1 est plus utile que term2 pour la classification de document dans cet exemple.

Exemple dans le contexte de la classification du sentiment

Un mot qui se produit principalement dans les revues de films positifs et rarement des commentaires négatifs contient des informations haute. Par exemple, la présence du mot «magnifique» dans une critique de film est un indicateur fort que la critique est positive. Cela rend "magnifique" un mot très instructif.

entropie Compute et gain d'information en python