Synchronisation du texte et de l'audio. Existe-t-il une bibliothèque NLP/speech-to-text pour cela?

Je voudrais synchroniser un enregistrement parlé avec un texte connu. Y a-t-il une bibliothèque de traitement de la parole au texte/langage naturel qui faciliterait cela? J'imagine que je voudrais détecter les limites de mots et calculer les correspondances de candidats à partir d'un dictionnaire. La plupart des questions que j'ai trouvées sur SO concernent le langage écrit.Synchronisation du texte et de l'audio. Existe-t-il une bibliothèque NLP/speech-to-text pour cela?

souhaitee, mais pas obligatoire:

Open Source
Compatible avec l'anglais américain out-of-the-box
multi-plateforme
soigneusement documenté

Modifier : Je réalise que c'est une question très large, voire naïve, donc merci d'avance pour vos conseils.

Ce que j'ai trouvé à ce jour:

OpenEars (wrapper iOS Sphinx/Flite)

Source

2010-11-01 Justin

Je cherche à faire la même chose, Sphinx semble trop large et documenté de manière erratique. Vous vous demandez ce que vous avez fini et si vous êtes au courant de quelque chose de plus à jour - je vois que cette question remonte à 2 ans, donc les choses ont dû changer depuis lors? –

J'ai quitté le projet avant d'en apprendre suffisamment pour contribuer davantage à la discussion. – Justin

Pour l'anecdote: Je maintiens les aeneas d'alignement forcé Python/C: https://github.com/readbeyond/aeneas/ –

d'alignement forcé

On dirait que vous voulez faire forced alignment entre votre audio et le texte connu. Pratiquement tous les systèmes de reconnaissance vocale de qualité recherche/industrie seront capables de le faire, car l'alignement forcé est une partie importante de l'apprentissage d'un système de reconnaissance sur des données qui n'ont pas d'alignement de niveau entre l'audio et la transcription.

alignement CMUSphinx

Le Sphinx4-1.0 beta 5 release du système de reconnaissance vocale open source CMU comprend maintenant une démonstration sur la façon de faire l'alignement entre la transcription et des enregistrements vocaux longs.

Source

2010-11-02 03:20:30 dmcer

Fantastique. Je n'avais pas réalisé que c'était juste sous mon nez. – Justin

Ce Sphinx est une bibliothèque très utile, mais les instructions sur comment utiliser sur iPhone semblent assez datées (iOS 3?) Et les commentaires suggèrent qu'il n'est pas facile à implémenter sur iOS4. Je me demande s'il y a plus d'informations à jour sur ce disponible? –

Synchronisation du texte et de l'audio. Existe-t-il une bibliothèque NLP/speech-to-text pour cela?

Répondre

Questions connexes