Comment utiliser le gain d'information dans la sélection des fonctionnalités?
gain d'information (InfoGain(t)
) mesure le nombre de bits d'information obtenus pour la prédiction d'une classe (c) en connaissant la présence ou l'absence d'un terme (t) dans un document.
De manière concise, le gain d'information est une mesure de la réduction de l'entropie de la variable de classe après l'observation de la valeur de la caractéristique. En d'autres termes, le gain d'information pour la classification est une mesure de la fréquence à laquelle une caractéristique est commune à une classe particulière par rapport à la fréquence de cette caractéristique dans toutes les autres classes.
Dans la classification de texte, caractéristique signifie que les termes sont apparus dans les documents (a.k.a corpus). Considérons, deux termes dans le corpus - term1
et term2
. Si term1
réduit l'entropie de la variable de classe d'une valeur supérieure à term2
, alors term1
est plus utile que term2
pour la classification de document dans cet exemple.
Exemple dans le contexte de la classification du sentiment
Un mot qui se produit principalement dans les revues de films positifs et rarement des commentaires négatifs contient des informations haute. Par exemple, la présence du mot «magnifique» dans une critique de film est un indicateur fort que la critique est positive. Cela rend "magnifique" un mot très instructif.
entropie Compute et gain d'information en python
s'il vous plaît expliquer ce que vous faites et ne comprennent pas (la formule? Dans le but d'obtenir des informations? Comment coder ? Quelle est une probabilité?) –
J'espère que mon explication vous aidera. –