0

Salut reconnaissance Experts,Digits reconnaissance avec CMU Sphinx

J'ai beaucoup de fichiers mp3 (flux audio d'origine était samplerate 11,025 kHz) contenant des chiffres (0 - 9).

différents haut-parleurs (hommes/femmes) dire par exemple "One", "Seven", "Trois", etc. avec des pauses entre les (~ 2 à 2,5 seconde)

Je vais utiliser CMU Sphinx reconnaître le discours (application de bureau). J'ai donc quelques questions:

  1. décodage MP3: Comment puis-je décode mes fichiers mp3 qui signifie que sampleRate dois-je préciser à ffmpeg (comme je sais que ce n'est pas recommandé à upsample/downsample flux). Dois-je filtrer les bruits et/ou les bandes de fréquence pendant le décodage?

  2. modèles acoustiques: Si je ne suis pas upsample/sous-échantillonner le flux, comment -je trouver un modèle acoustique supportant 11025 kHz. Si je faire, quel est le meilleur modèle pour les chiffres?

  3. Mode de reconnaissance: J'ai trouvé il y a deux modes pour transcrivant - clé spotting et reconnaissance. Whichmode serait mieux prendre en compte je n'ai que des chiffres (et un peu de bruit)

Merci

UPD:

Nikolay, je vous remercie pour la réponse. J'ai essayé ce que vous proposez - ça marche!

Si ça ne te dérange pas que je voudrais poser quelques qiestions supplémentaires:

  1. Je trouve que l'un des modèles acoustiques voxforge est plus précis que nous-en-8khz. Est-ce que c'est bon?

  2. Seuls 45% des fichiers sont reconnus corrects. Les autres 55% ont des erreurs de 20 à 90%. Ainsi ma question: Y a-t-il une possibilité d'estimer la confiance des résultats obtenus? Par exemple, je pourrais passer les fichiers, qui ne sont "sûrement" pas reconnus?

  3. Si la réponse 2 est «non», que pouvez-vous suggérer pour améliorer la précision? Je sais, la question est très abstraite ...

Merci d'avance!

UPD2:

Par ailleurs, les meilleurs paramètres définis (je suis juste allé à travers les différents paramètres) est:

-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5 

Répondre

0

décodage MP3: Comment puis-je décode mes fichiers mp3 ce qui signifie que samplerate dois-je spécifier à ffmpeg (comme je sais qu'il n'est pas recommandé de suréchantillonner/downsample flux). Dois-je filtrer les bruits et/ou les bandes de fréquence pendant le décodage?

ffmpeg -i file.mp3 -ar 8000 file.wav 

modèles acoustiques: Si je ne Suréchantillonner/sous-échantillonner le flux, comment puis-je trouver un modèle acoustique supportant 11025 kHz. Si c'est le cas, quel est le meilleur modèle pour les chiffres?

en-us-8khz est disponible dans les téléchargements, vous devez créer une grammaire chiffres comme dans tutorial et ensuite l'utiliser de la manière suivante

pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000 

Mode de reconnaissance: J'ai trouvé il y a deux modes de transcription - Repérage des clés et reconnaissance. Whichmode serait mieux prendre en compte que j'ai que des chiffres (et un peu de bruit)

Mode de reconnaissance

+0

vous remercie, Nokilay. Ma combinaison est chanceux: 'pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm voxforge_model -samprate 8000 -remove_dc oui -remove_noise pas -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5' CMU Sphinx FAQ dit : régions de silence _Zero dans les fichiers audio décodés à partir de mp3 briser le décodeur. Vous pouvez utiliser le dither pour introduire un petit bruit aléatoire pour résoudre ce problème. Voulez-vous dire que cela peut affecter le résultat? – Sinotix

+0

Non, le modèle de voxforge doit être beaucoup moins précis. Vos arguments supplémentaires sont également faux, vous ne devriez pas désactiver la suppression du bruit. Pour analyser une mauvaise précision, vous devez fournir quelques échantillons d'essai. Je vous suggère de discuter de ce problème sur le forum cmusphinx, il ne correspond pas vraiment au format stackoverflow. –

+0

Pour ceux qui sont intéressés, la suite est ici: https://sourceforge.net/p/cmusphinx/discussion/help/thread/654ed756/ – Sinotix