2017-08-20 1 views
-1

J'ai un problème d'autocorrélation dans mes données de panel. J'ai donc décidé d'utiliser la méthode de la première différence afin de résoudre ce problème.Traitement des variables binaires pour la première méthode de différence pour résoudre le problème d'autocorrélation

La plupart de mes variables indépendantes sont binaires. Donc, si je fais la méthode des différences finies par-dessus, j'obtiens -1, 0 et 1 au lieu de 0 ou 1 comme avant.

Est-ce correct?

Outre

, mes ensemble de données flux de temps est la suivante que je ne sais pas comment je peux appliquer la première méthode de différence dans ce cas quand j'ai plusieurs incidents de différence qui se produisent le même jour:

 Date ID X Y Z L M A B C D E 
01/01/2017 A 0 1 0 0 0 0 1 0 0 7.8 
01/01/2017 A 0 1 0 0 0 1 0 0 1 6.5 
01/01/2017 B 0 0 0 0 1 1 0 0 1 6.5 
01/03/2017 A 0 1 0 0 0 0 0 0 0 7.8 
01/04/2017 C 0 0 1 0 0 1 0 0 0 6.5 
01/04/2017 C 0 0 0 0 0 0 1 0 0 7.3 

Je sorte ce nouveau selon la date et ID qui deviennent comme suit:

Date ID X Y Z L M A B C D E 
01/01/2017 A 0 1 0 0 0 0 1 0 0 7.8 
01/01/2017 A 0 1 0 0 0 1 0 0 1 6.5 
01/01/2017 B 0 0 0 0 1 1 0 0 1 6.5 
01/03/2017 A 0 1 0 0 0 0 0 0 0 7.8 
01/04/2017 C 0 0 1 0 0 1 0 0 0 6.5 
01/04/2017 C 0 0 0 0 0 0 1 0 0 7.3 

d'ailleurs, est-ce nouveau tri des données ok à utiliser dans ma régression du Groupe spécial et prendre aussi la première différence au cours de cette utilisation de cette séquence de ligne?

+0

Je veux dire techniquement, n'obtenez-vous pas -1, 0 ou 1? – Dason

+0

Oui est -1 ok en tant que variable binaire? – Eric

Répondre

1

Un régresseur peut être soit invariant dans le temps, soit variable dans le temps. Pour certains estimateurs, notamment les estimateurs intra et premier écart, seuls les coefficients des variables régressives variables dans le temps sont identifiés (Cameron et Triverdi, Microeconometric Methods and Applications.). Certains de vos régresseurs semblent être invariants dans le temps.

Vous n'avez pas affaire à des séries chronologiques, mais à des données de panneaux ou longitudinales. Bien sûr, vous avez plusieurs ID et dates. Cela dit, vous avez besoin de traiter l'autocorrélation avec des outils de données de panel comme les estimateurs Arellano-Bond et Blundell-Bond, pour n'en citer que quelques-uns. Voir pgmm dans le paquet R plm ou xtdpdsys ou xtabond dans Stata.

Si vous avez plus d'une variable identifiant votre ID de panneau, vous pouvez l'agrandir en utilisant: R create ID within a group. Si vous travaillez avec Stata vous pouvez faire: egen id = group(sub_id_1 sub_id_2).

+0

Merci beaucoup. J'utilise maintenant la fonction plm avec index = c ("année", "id"). Est-ce que ça peut encore être utilisé si je trier mes données en fonction de l'ID puis en fonction du temps et prendre la première différence dans chaque rangée? Il y aura donc un tri en termes d'identification et de dates. – Eric

+0

Sauf si vous utilisez la fonction lm, vous ne devez pas vous différencier. L'approche la plus appropriée serait de spécifier la variable du modèle dans votre appel plm: 'plm (..., model =" fd ")'. –

+0

Je l'espère parce que quand je fais le plus dwtest sur ma formule, je reçois un problème d'autocorrélation. J'ai donc utilisé la méthode de la première différence sur mes données brutes d'abord pour utiliser mes nouvelles données brutes. Donc, je supprime la première année et le premier ID de mes données brutes pour correspondre au nombre total de données. Je pourrais faire "fd" dessus encore, mais ce ne sera pas grave puisque pour moi n'ayant aucun problème d'autocorrélation est la première priorité. De plus, mon arrangement de données brutes est-il correct? – Eric