2015-04-25 2 views
0

Je souhaite sélectionner une fenêtre optimale pour STFT pour différents signaux audio. Pour un signal avec un contenu de fréquence de 10 Hz à 300 Hz, quelle sera la taille de fenêtre appropriée? de même pour un signal de fréquence comprise entre 2000 Hz et 20000 Hz, quelle sera la taille optimale de la fenêtre?Comment puis-je sélectionner une fenêtre optimale pour la transformée de Fourier de courte durée?

Je sais que si une taille de fenêtre est de 10 ms alors cela vous donnera une résolution de fréquence d'environ 100 Hz. Mais si le contenu de fréquence dans le signal se situe de 100 Hz à 20000 HZ alors 10 ms sera la taille de la fenêtre appropriée? ou nous devrions aller pour une autre taille de fenêtre en raison du contenu de la fréquence 20000 Hz dans un signal?

Je connais le «principe d'incertitude» classique de la transformée de Fourier. Vous pouvez avoir une haute résolution dans le temps ou une haute résolution en fréquence mais pas les deux en même temps. Les longueurs de fenêtre vous permettent de faire un compromis entre les deux.

+0

Cette question est plus approprié pour http://dsp.stackexchange.com –

Répondre

0

Selon le théorème d'échantillonnage, la fréquence d'échantillonnage doit être supérieure à deux fois la fréquence la plus élevée du signal. Et sur la base de la transformée de Fourier discrète (DFT), nous savons également que la résolution en fréquence est l'inverse de la durée totale du signal, et que la totalité de la plage de fréquence est l'inverse de la résolution temporelle. Notez que la fréquence est simplement l'inverse de la période, donc les relations vont inversement l'une avec l'autre. Cela dit, pour traiter le signal audio de 20 kHz, nous devons échantillonner en 40 kHz. Et si nous voulons obtenir la résolution de fréquence vers le bas, disons à 10Hz, nous aurons besoin d'échantillonner toute la durée aussi longtemps que 0.1Sec, ce qui est 1/10Hz.

C'est la raison pour laquelle nous voyons normalement que les fichiers audio sont dits 44k. Parce que la gamme auditive humaine est limitée à 20kHz. Pour ajouter une marge, nous utilisons 44k fréquence d'échantillonnage au lieu de 40kHz.

Je pense que le principe d'incertitude va de pair avec le fait que le signal plus localisé dans un domaine, étalé sur l'autre. Par exemple, une impulsion dans le domaine temporel va de l'infini négatif à l'infini positif, c'est-à-dire l'étendue entière du spectre. Et inversement, le signal à fréquence unique dans le spectre s'étend de l'infini négatif à l'infini positif dans le domaine temporel. C'est tout simplement parce que nous devions partir pour toujours pour savoir si un signal pouvait être un signal sinusoïdal pur ou non. Mais pour DFT, nous pouvons toujours obtenir la fréquence si nous échantillonnons deux fois la plus haute fréquence du signal, et la résolution que nous voulons si nous échantillonnons la durée du signal assez longtemps. Donc, pas si incertain que le principe d'incertitude dit, tant que nous savons combien d'échantillons à prendre et à quelle vitesse et combien de temps pour les prendre.

+0

La question est sur la taille de la fenêtre, pas sur la fréquence d'échantillonnage ou le nombre de points dans DFT –

1

L'analyse fenêtrée est conçue pour les signaux quasi-stationnaires. Les signaux quasi-stationnaires sont des signaux qui changent avec le temps, mais sur une courte période, ils peuvent être considérés comme stables.

Un exemple de signal quasi-stationnaire est la parole. Les composantes de fréquence de ce signal changent au fil du temps lorsque la position de la langue et de la bouche changent, mais sur une courte période de temps d'environ 0,01 s, elles peuvent être considérées comme stables parce que la langue ne bouge pas aussi vite. La gamme de 0,01s est déterminée par notre biologie, nous ne pouvons tout simplement pas bouger la langue plus vite que cela.

Un autre exemple est la musique. Lorsque vous touchez la corde que vous pourriez considérer, elle produit un son plus ou moins stable pendant une courte période de temps. Habituellement 0,05 secondes. Dans cette période, vous pourriez considérer le son stable.

Il pourrait y avoir d'autres types de signaux, par exemple, il pourrait avoir une fréquence de 10 GHz et être quasi-stationnaire de 1 ms de temps.

L'analyse fenêtrée permet de capturer à la fois les propriétés stationnaires du signal et le changement de signal dans le temps. Ici, peu importe la fréquence d'échantillonnage, quelle résolution de fréquence avez-vous besoin ou quelles sont les harmoniques principales. Sont les harmoniques principales près de 100Hz ou près de 3000Hz. Il est important de savoir à quelle période le signal est stationnaire et sur quoi il peut être considéré comme changeant.

Donc pour la parole, une fenêtre de 25 ms est bonne juste parce que la parole est quasi-stationnaire sur cette plage. Pour la musique, vous prenez généralement des fenêtres plus longues parce que nos doigts bougent plus lentement que notre bouche. Vous devez étudier votre signal pour décider de la longueur optimale de la fenêtre ou vous devez fournir plus d'informations à ce sujet.

0

Vous devez spécifier vos critères "d'optimalité".

Pour une résolution de fréquence souhaitée, vous avez besoin d'une longueur ou d'une fenêtre d'environ Fs/df (ou d'une fraction à deux fois cette longueur ou plus, selon le rapport signal/bruit et la fenêtre). Cependant, la longueur doit également être similaire ou inférieure à la durée pendant laquelle votre signal est stationnaire dans les limites de résolution de fréquence souhaitées. Cela peut ne pas être possible ou connu, vous obligeant ainsi à spécifier quels critères (df vs dt) sont plus importants pour votre «optimalité» souhaitée.

Si plusieurs longueurs de fenêtre correspondent à vos critères, la plus petite longueur qui est un multiple de très petits nombres premiers est susceptible d'être la plus efficace sur le plan informatique pour les FFT suivantes dans une séquence de calcul STFT.

+0

Merci pour la réponse. En effet, je cherchais une telle réponse. –