Je voudrais synchroniser un enregistrement parlé avec un texte connu. Y a-t-il une bibliothèque de traitement de la parole au texte/langage naturel qui faciliterait cela? J'imagine que je voudrais détecter les limites de mots et calculer les correspondances de candidats à partir d'un dictionnaire. La plupart des questions que j'ai trouvées sur SO concernent le langage écrit.Synchronisation du texte et de l'audio. Existe-t-il une bibliothèque NLP/speech-to-text pour cela?
souhaitee, mais pas obligatoire:
- Open Source
- Compatible avec l'anglais américain out-of-the-box
- multi-plateforme
- soigneusement documenté
Modifier : Je réalise que c'est une question très large, voire naïve, donc merci d'avance pour vos conseils.
Ce que j'ai trouvé à ce jour:
- OpenEars (wrapper iOS Sphinx/Flite)
Je cherche à faire la même chose, Sphinx semble trop large et documenté de manière erratique. Vous vous demandez ce que vous avez fini et si vous êtes au courant de quelque chose de plus à jour - je vois que cette question remonte à 2 ans, donc les choses ont dû changer depuis lors? –
J'ai quitté le projet avant d'en apprendre suffisamment pour contribuer davantage à la discussion. – Justin
Pour l'anecdote: Je maintiens les aeneas d'alignement forcé Python/C: https://github.com/readbeyond/aeneas/ –