Aujourd'hui j'ai encore rencontré un problème.rechercher une séquence dans un fichier non délimité par des tabulations
Je dispose d'un fichier qui ressemble à:
fichier A
>chr1
ACGACTGACTGTCGATCGATCGATGCTCGATGCTCGACGATCGTGCTCGATC
>chr2
GTGACGCACACGTGCTAGCGCTGATCGATCGTAGCTCAGTCAG
>chr3
CAGTCGTCGATCGTCGATCGTCG
et ainsi de suite (basiquement un fichier FASTA).
Dans un autre fichier je un onglet bien des informations délimités sur ma lecture:
fichier B
chr2 0 * 2S3M5I2M1D3M * CACTTTTTGTCTA NM:i:6
Les deux fichiers sont vraiment énormes
Je veux écrire tout ce qui doit être fait, seulement la partie avec laquelle j'ai un problème:
si déposé chr2 à partir du fichier B correspond à la ligne> chr2 dans le fichier A, cherchez CACTTTTTGTCTA (fichierB) dans la séquence du fichier A (seulement en séquence dans la région> chr2. Suivant> chr est un chromosome différent donc je ne veux pas y chercher).
Pour simplifier Cherchons: séquence CACACGTGCTAG dans le fichier A
je tentais en utilisant le dictionnaire pour le fichier A, mais il est complètement impossible.
Des suggestions?
Donc, ce que vous faites maintenant est de créer un dictionnaire à partir du fichier A, dans lequel les touches sont les chromosomes et les valeurs sont des séquences d'ADN? Et puis en utilisant quelque chose comme "fileBField in fileAfield" pour voir si la séquence est dans la valeur de la clé appropriée? – seaotternerd
oui, et c'est très "pas malin". Cependant, j'ai creusé la méthode .next et fait quelques progrès – Irek