2017-04-25 2 views
0

J'essaie d'exécuter un GLM dans R pour les données de biomasse (biomasse réductrice et rapport de la biomasse reproductrice à la biomasse végétative) en fonction du type d'habitat (hab), les données de l'année ont été recueillies («année») et le site de collecte de données («site»). Mes données semblent correspondre à un puits de distribution Gamma, mais j'ai 8 observations avec une biomasse nulle (sur environ 800 observations), donc le modèle ne fonctionnera pas. Quelle est la meilleure façon de gérer cela? Quelle serait une autre distribution d'erreur à utiliser? Ou est-ce que l'ajout d'une très petite valeur (telle que .0000001) à mes observations nulles serait viable?Exécution d'un GLM avec une distribution Gamma, mais les données incluent des zéros

Mon modèle est:

reproductive_biomass<-glm(repro.biomass~hab*year + site, data=biom, family = Gamma(link = "log")) 

Répondre

1

Ah, dois - zéros les aiment. En fonction du système que vous étudiez, je serais tenté de vérifier les modèles à zéro gonflé ou à haies - l'idée de base est qu'il y a deux composantes dans le modèle: un processus binomial décidant si la réponse est zéro ou non zéro, puis un gamma qui fonctionne sur les nonzeroes. Slick part est que vous pouvez ensuite faire des inférences sur les coefficients des deux modèles et même utiliser des coefficients différents pour les deux.

http://seananderson.ca/2014/05/18/gamma-hurdle.html ... mais la recherche de "gamma gonflé à zéro" ou de "modèles tweedie" pourrait aussi donner quelque chose d'informatif et/ou d'érudit.

Dans un monde idéal, votre outil d'analyse doit s'adapter à votre système et à vos inférences. Le monde gonflé à zéro est plutôt doux, mais il dépend de l'hypothèse de processus séparés. Donc, une question importante à laquelle il faut répondre, bien sûr, est de savoir ce que «signifient» les zéros dans le contexte de votre étude, et vous seul pouvez répondre - que ce soit des nombres qui sont vraiment vraiment petits ou de véritables zéros. résultat d'un processus de confusion comme si votre collègue renversait l'eau de Javel (ou quelque chose d'inintéressant pour votre étude), ou bien de vrais zéros qui sont intéressants.

Autre idée: posez la même question sur crossvalidated, et vous obtiendrez probablement une réponse encore plus informée sur le plan statistique. Bonne chance!