2015-12-26 3 views
4

J'ai besoin de former un modèle LSTM bidirectionnel pour reconnaître la parole discrète (numéros individuels de 0 à 9) J'ai enregistré un discours à partir de 100 locuteurs. Que devrais-je faire ensuite? (Supposons que je les scinde en fichiers .wav individuels contenant un nombre par fichier) J'utiliserai mfcc en tant que fonctionnalités pour le réseau.Comment préparer un jeu de données pour la reconnaissance vocale

De plus, je voudrais savoir la différence de l'ensemble de données si je vais utiliser une bibliothèque qui prennent en charge la CCT (Connectionist Classification temporelle)

Répondre

3

Vous pouvez utiliser la réponse/conseils offerts en fonction here

sur quelle bibliothèque vous utilisez pour créer votre LSTM (pybrain, theano, keras), vous pouvez consulter leur documentation.

Je recommanderais d'utiliser Théano (Binary LSTM link) ou Keras (Tutorial) pour cela parce qu'ils sont assez simples à comprendre et sont bien documentés.

espérons que cette aide.