Ma question est pourquoi mon set d'entrainement devrait-il aussi être faussé (nombre d'instances de la classe positive beaucoup moins par rapport à la classe négative) lorsque mon test est également asymétrique. J'ai lu qu'il est important de maintenir la même répartition entre les classes, tant dans l'entraînement que dans l'ensemble des tests, afin d'obtenir la performance la plus réaliste possible. Par exemple, si mon ensemble de tests a une distribution de 90% à 10% d'instances de classe, mon ensemble d'entraînement devrait-il avoir les mêmes proportions?Pourquoi mon ensemble d'entraînement devrait-il aussi être biaisé en termes de nombre de classes juste parce que mon test est faussé
Je trouve difficile de comprendre pourquoi il est important de maintenir les proportions d'instances de classe dans l'ensemble d'apprentissage telles qu'elles sont présentes dans l'ensemble de test.
La raison pour laquelle je trouve difficile à comprendre est que nous ne voulons pas qu'un classificateur apprenne simplement les modèles dans les deux classes? Donc, devrait-il être important de maintenir l'asymétrie dans l'ensemble d'entraînement juste parce que l'ensemble d'essai est faussé?
Toutes les pensées seront utiles
Vous donnez de bonnes raisons dans le premier paragraphe mais n'élaborez pas pourquoi vous les trouvez * difficiles * à croire. Faites cela, afin que les gens ne répondent pas à ce que vous savez déjà. – runDOSrun
Les jeux de données sont faussés par rapport à * quoi *? Si c'est relatif à la vraie distribution, alors vous avez probablement une situation GIGO. Si ce n'est pas le cas, vous devez simplement vous assurer que les données du train ne sont pas faussées par rapport aux données de test (=> également les données réelles). –
@AmiTavory Pouvez-vous préciser la situation de GIGO? Vouliez-vous dire la poubelle dans la situation des déchets? J'ai édité la question un peu pour expliquer ce qu'est l'asymétrie ici. Il s'agit essentiellement de la différence entre les proportions d'instances de classe dans l'ensemble d'apprentissage. –