2017-05-31 2 views

Répondre

0

Je ne suis pas familier avec le paquet h2o.randomForest, mais ma compréhension générale des forêts aléatoires est que chaque arbre sera cultivé jusqu'à ce qu'un certain nombre minimum de points de données s'inscrivent dans chaque feuille de l'arbre. En d'autres termes, un arbre continuera à se diviser jusqu'à ce qu'un certain niveau de classification de chaque point de données ait été atteint. Dans l'ensemble randomForest standard, il y a un paramètre appelé nodesize qui contrôle ceci:

https://stats.stackexchange.com/questions/158583/what-does-node-size-refer-to-in-the-random-forest

Le paramètre analogue dans le paquet ranger semble être min.node.size. Vous pouvez comparer les informations dans le lien ci-dessus avec le documentation pour vous convaincre qu'ils parlent tous les deux de la même chose.

+0

La profondeur maximale correspond au nombre de divisions entre la souche et la feuille. C'est un paramètre de contrôle utilisé pour éviter le sur-ajustement. – EngrStudent

+0

@EngrStudent Je ne crois pas que l'ajustement excessif soit un gros problème avec les forêts aléatoires. Et dans tous les cas, la taille du nœud vous donne le même contrôle sur la division. –

+0

Tout peut être trop long. Ce n'est pas le plus gros problème, mais si vous voulez des performances optimisées, alors vous devez régler. Si vous limitez le nombre de divisions faites pour un arbre binaire, alors vous mettez une limite supérieure sur le temps de calcul. – EngrStudent