J'utilise Scikit-learn pour la classification de texte. Je veux calculer le gain d'information pour chaque attribut par rapport à une classe dans une matrice de termes documentaires (clairsemée). Le gain d'information est défini comme H (Classe) - H (Attribut de classe |), où H est l'entropie. En utilisant weka, ceci peut être accompli avec InfoGainAttribute. Mais je n'ai pas trouvé cette mesure dans scikit-learn.Information Calcul de gain avec Scikit-learn
Toutefois, il a été suggested que la formule ci-dessus pour Information Gain est la même mesure que l'information mutuelle. Cela correspond également à la définition dans wikipedia.
Est-il possible d'utiliser un paramètre spécifique pour des informations mutuelles dans scikit-learn pour accomplir cette tâche?