J'ai 36-NT lit comme ceci: atcttgttcaatggccgatcXXXXgtcgacaatcaa
dans le fichier fastq avec XXXX étant les codes à barres différents. Je veux rechercher un code à barres dans le fichier à la position exacte (21 à 24) et imprimer les séquences avec jusqu'à 3 discordances dans la séquence pas de code à barres.trouver un code à barres d'ADN avec discordances dans l'ordre
Par exemple: je code à barres: aacg
recherche qui code à barres entre la position 21 à 24 dans le fichier fastq avec permettant 3 discordances dans la séquence comme:
atcttgttcaatggccgatcaacggtcgacaatcaC# it has 1 mismatch
ttcttgttcaatggccgatcaacggtcgacaatcaC# it has 2 mismatch
tccttgttcaatggccgatcaacggtcgacaatcaC# it has 3 mismatch
je tentais de trouver des lignes uniques en utilisant d'abord awk et chercher des discordances mais c'est très fastidieux pour moi de les regarder et de les trouver.
awk 'NR%4==2' 1.fq |sort|uniq -c|awk '{print $1"\t"$2}' > out1.txt
Y at-il un moyen rapide que je peux trouver?
Merci.
Je suis confus. Qu'est-ce que les codes à barres ont à voir avec les séquences nucléotidiques? – Kevin
initialement je cherchais des codes à barres pour une position spécifique et je recevais très faible compte, et avec 1 discordance dans la séquence je suis haut count.so, si je donne des discordances dans la séquence, je vais obtenir plus de séquences (et je veux essayer jusqu'à 3) – abh
Donc, vous scannez [codes à barres] (http://en.wikipedia.org/wiki/Barcode)? Comme, les modèles stripey noir et blanc que les caissiers de supermarché utilisent pour identifier le prix des articles? Parce que je ne sais toujours pas comment vous pouvez obtenir de l'ADN à partir d'un code à barres. – Kevin