2017-02-24 4 views
1

Dans le package PST, nous utilisons la valeur C comme valeur de coupure pour la fonction de gain d'informations utilisée pour élaguer l'arborescence. La valeur C, pour un alpha de 0,05 est calculé comme suit:Quelle est la signification de l'alpha dans le contexte d'une fonction d'élagage de gain d'information?

C95 <- qchisq(0.95, 1)/2 

Qu'est-ce que cela signifie que la valeur C est basée sur un alpha de 0,05? Cela signifie-t-il que nous devons être au moins à 95% certains qu'un nœud supplémentaire ajoute plus d'informations par rapport aux nœuds précédents, afin qu'il soit conservé par l'algorithme d'élagage?

Répondre

1

Votre question concerne l'utilisation de gain="G2" dans la fonction prune et concerne le choix du seuil C pour cette fonction de gain. Deux fois la fonction de gain G2 utilisée pour vérifier si une branche peut être élaguée est en fait la statistique de test du rapport de vraisemblance qui compare la probabilité de l'arbre avant et après l'élagage de la branche. La statistique 2 * G2 a une distribution du khi carré sous l'hypothèse que la branche testée n'ajoute aucune information. Ainsi, la branche est élaguée lorsque la différence n'est pas statistiquement significative, c'est-à-dire tant que la valeur G2 ne dépasse pas le seuil pour le niveau de signification donné.

L'alpha est le niveau de signification habituel utilisé dans les tests statistiques. C'est typiquement 1% ou 5%. Choisir alpha = 0,05 signifie qu'il y a 5% de chances de ne pas élaguer incorrectement une branche en raison du caractère aléatoire de l'échantillon.