2017-07-20 6 views
0

Je suis très très novice dans le traitement de la parole. Je suis en train d'essayer de faire de la réduction du bruit. J'utilise la méthode de soustraction spectrale. Tout en le faisant, dans de nombreux articles théoriques et algorithmes, il dit de prendre les images du signal audio. Pour cela, j'ai pris 20ms de long pour chaque image par exemple pour Fréquence d'échantillonnage = 16KHz, je finirais chaque image avec 16KHz * 20ms = 320 échantillons/image.Qu'est-ce que cela signifie de dire moyenne/moyenne de ces premiers 3 frame

windowed_frame = frame .* hamming(length(frame)); 
complex_spec = fft(windowed_frame,512);   
mag_spec = abs(complex_spec); 
phase_spec = angle(complex_spec); 

Maintenant, pour le signal de bruit, il dit:

On suppose quelques images initiales non vocaux comme le bruit.

Donc, pour obtenir une estimation de bruit, il indique

Prenez la moyenne des 3 premières ou si les cadres.

Et chaque trame si 320 échantillons de long. Maintenant, qu'est-ce que cela veut dire de prendre moyenne/moyenne de ces 3 premières images?

Les 3 images contiennent au total 3 * 320 = 960 échantillons. Indique-t-il de prendre en compte ces 960 valeurs? Mais cela ne donnerait qu'une seule valeur. Mais j'aurais besoin d'une taille fenêtrée de 20ms de taille noise_estimate.

Une aide?

+1

il ya un site de soeur qui se concentre sur le traitement du signal numérique ... si aucune aide ici vous pouvez déplacer votre question ... voir https://dsp.stackexchange.com/search?q=+sound+frames + in + Speech + Processing –

+0

Je suppose que cela signifie prendre la moyenne des éléments du spectre de chacune des trois premières trames, ce qui donne un spectre de puissance moyen des 960 premiers échantillons. –

Répondre

0

Vous avez besoin d'une estimation du spectre de bruit. Par conséquent, vous calculez la moyenne mag_spec dans les 3 premières images, et non les valeurs de signal. Le résultat sera 512 nombres, essentiellement l'énergie du bruit pour chaque fréquence bin.