2017-02-18 3 views
1

J'essaie de mettre en œuvre un module de reconnaissance vocale utilisant Mel Fréquence Cepstral Coefficient (MFCC) et Dynamic Time Warping (DTW).Comment appliquer les coefficients MFCC à DTW

Je divise le signal (x (n)) en trames de 25 ms avec un chevauchement de 10 ms et trouve les paramètres MFCC pour chaque trame. Mon principal doute est comment puis-je effectuer DTW dans ce scénario. Supposons qu'il existe M trames et N (13) coefficients MFCC.

J'ai donc une matrice M x N. Maintenant, comment dois-je calculer DTW?

Répondre

2

La matrice de MxN peut être représentée par une longueur MxN de vecteur 1D.

, vous avez Modèle1

p1[M*N], len=i, 'silence-HHHEEEEELLLLLOOOOOOOO-silence' sound; 

puis, deuxième

p2[M*N], len=j, like 'HHHHHHEEELLOOOO' 

puis DTW par manhattan, euclidienne, Bray-Curtis, etc calcul de la distance, vous obtenez une sortie matrice 2d, il y aura un chemin avec un poids minimum.