2010-07-28 5 views
0

J'ai un fichier de SNP qui a été traité en utilisant PLINK. J'ai une liste de plusieurs milliers de SNPs. Dans le fichier, on leur attribue l'un de NA, 0, 1 ou 2. Je veux supprimer la liste des SNP qui ont une NA, c'est-à-dire qu'ils sont monomorphes. Le problème est que le fichier répertorie tous les milliers de SNP dans l'ordre, puis répertorie leurs valeurs respectives après cela dans une ligne séparée par des espaces. Il est très difficile de voir quelles valeurs correspondent à quel SNP basé sur l'inspection manuelle.PLINK et supprimer des parties des données

Existe-t-il une méthode simple pour supprimer les SNP monomorphes du fichier en utilisant PLINK? Ou est-ce mieux fait en utilisant Python?

+1

et plink est .....? – skaffman

+0

Pensé il a dit plinq pendant une seconde! – Will

Répondre

1

Si vous ne l'avez pas encore trouvé, vous pouvez supprimer des SNP monomorphes en utilisant PLINK --maf.

Supprimer SNPs monomorphes dans l'ensemble de données (ceux qui ont un CRG = 0,0) http://www.shapeit.fr/pages/pedmap.html

1

Erm, ne signifie pas que certains NA SNPs sont les valeurs manquantes de données? Pour les supprimer, vous devez utiliser la commande --geno. Pour citer le docs:

--geno filtre toutes les variantes avec des taux d'appel manquantes dépassant la valeur fournie (par défaut 0,1) à supprimer

La commande --maf ne supprime SNPs monomorphes, cependant. Le réglage de --maf légèrement au-dessus de 0 peut être judicieux, car si un allèle est trouvé à une fréquence très basse, il est susceptible de représenter une erreur de génotypage.

Dans l'ensemble, vous voudrez peut-être insérer un contrôle de qualité du type suivant dans votre commande plink:

--geno 0.03 --hwe 0.00001 --maf 0.00001 

(hwe est juste l'équilibre régulier Hardy-Weinberg).

Questions connexes