Je travaille sur un programme pour les personnes malentendantes. J'ai travaillé avec sapi et un TTs. Le programme fait une animation 3D avec une main en même temps. Mais le problème est que les voix (aussi quand on les met à son discours le plus lent) est de jeûner pour ce que je veux. J'ai donc pensé à la reconnaissance de la parole, mais le problème est que je dois faire un grand processus au texte avant le début de l'animation. Donc, je veux savoir si il serait possible de faire de la reconnaissance vocale (à partir de ma voix sur un fichier .wave) et ensuite faire le même processus de TTs (avec des événements Sapi ...) mais en utilisant le .wave avec ma voix.Il est possible de faire SpeechToText (reconnaissance vocale) et TextToSpeech par la suite (en utilisant le même texte et la même voix)?
Si c'est possible, s'il vous plaît dites-moi comment. Si vous pensez qu'il existe de meilleures alternatives, laissez-moi les voir.
Merci pour votre temps (et excusez mon anglais)
Jesuskiewicz
Etes-vous sûr que vous ne pouvez pas synchroniser seulement les animations aux événements visème ou phonème? Aussi, pourquoi ne pas traiter le texte avant d'envoyer le texte au moteur TTS? –
Non, parce que, même quand un TTS configuré pour parler avec la vitesse la plus lente, est trop rapide, et il fait aussi le son de la voix robotique.En outre, les animations sont référencées au niveau de sylabe, donc je ne peux pas synchroniser en temps réel. – Jesuskiewicz
donc, si je comprends bien le problème, vous avez du texte, et vous voulez utiliser TTS, mais vous devez également synchroniser le TTS avec l'animation de signature. Le problème que vous rencontrez est que les animations de signature sont relativement longues et que vous perdez la synchronisation. Ce que je ne comprends pas (encore), c'est ce que vous voulez faire quand les animations sont trop longues - voulez-vous insérer des pauses entre les mots? –