J'utilise Weka et je voudrais effectuer une régression avec des forêts aléatoires. Plus précisément, j'ai un ensemble de données:Forêt d'arbres de régression dans Weka
Feature1,Feature2,...,FeatureN,Class
1.0,X,...,1.4,Good
1.2,Y,...,1.5,Good
1.2,F,...,1.6,Bad
1.1,R,...,1.5,Great
0.9,J,...,1.1,Horrible
0.5,K,...,1.5,Terrific
.
.
.
Plutôt que d'apprendre à prédire la classe la plus probable, je veux apprendre la distribution de probabilités sur les classes pour un vecteur de caractéristique donnée. Mon intuition est que l'utilisation du modèle RandomForest dans Weka ne serait pas appropriée, car elle tenterait de minimiser son erreur absolue (maximum de vraisemblance) plutôt que son erreur au carré (distribution de probabilité conditionnelle). Est-ce que cette intuition est juste? Y a-t-il un meilleur modèle à utiliser si je veux effectuer la régression plutôt que la classification?
Éditer: Je pense en fait maintenant que ce n'est peut-être pas un problème. Vraisemblablement, les classificateurs apprennent la probabilité conditionnelle P (Class | Feature1, ..., FeatureN) et la classification résultante est juste de trouver le c dans la classe qui maximise cette distribution de probabilité. Par conséquent, un classificateur RandomForest devrait être capable de me donner la distribution de probabilité conditionnelle. Je devais juste y penser un peu plus. Si c'est faux, corrigez-moi s'il vous plaît.
Donc la difficulté ici est que je n'ai pas les données de distribution réelles que j'essaie d'apprendre. Au contraire, j'en ai des échantillons. Donc, si je séparais chaque classe dans son propre ensemble de données, ce serait une tâche de classification binaire. Je suppose que je pourrais le faire, mais y a-t-il une raison de principe pour laquelle cela fonctionnerait mieux? –
Si vous prédisez la probabilité, elle devient une tâche de régression - vous prédisez un nombre au lieu d'une étiquette. Le point de séparer en plusieurs ensembles de données serait de pouvoir juger individuellement pour chaque classe quelle est la probabilité des données qui lui appartiennent. –