J'ai besoin de former un modèle LSTM bidirectionnel pour reconnaître la parole discrète (numéros individuels de 0 à 9) J'ai enregistré un discours à partir de 100 locuteurs. Que devrais-je faire ensuite? (Supposons que je les scinde en fichiers .wav individuels contenant un nombre par fichier) J'utiliserai mfcc en tant que fonctionnalités pour le réseau.Comment préparer un jeu de données pour la reconnaissance vocale
De plus, je voudrais savoir la différence de l'ensemble de données si je vais utiliser une bibliothèque qui prennent en charge la CCT (Connectionist Classification temporelle)