7

Je suis en train de développer une application iOS qui utilise l'IA vocale; c'est-à-dire qu'il est destiné à prendre une entrée vocale du microphone, à la transformer en texte, à l'envoyer à un agent AI, puis à sortir le texte renvoyé par l'intermédiaire du haut-parleur. J'ai tout fonctionne, mais en utilisant un bouton pour démarrer et arrêter l'enregistrement du discours (SpeechKit pour la reconnaissance vocale, API.AI pour l'IA, Polly d'Amazon pour la sortie).Détection de l'activité vocale à partir de l'entrée micro sur iOS

La pièce dont j'ai besoin est de toujours allumer le micro et de démarrer et d'arrêter automatiquement l'enregistrement de la voix de l'utilisateur au début et à la fin de la conversation. Cette application est en cours de développement pour un contexte peu orthodoxe, où il n'y aura pas d'accès à l'écran pour l'utilisateur (mais ils auront un micro haut de gamme shotgun pour l'enregistrement de leur texte). Mes recherches suggèrent que cette pièce du puzzle est connue sous le nom de «détection d'activité vocale» et qu'elle semble être l'une des étapes les plus difficiles de tout le système d'IA basé sur la voix. J'espère que quelqu'un peut soit fournir un code simple (Swift) pour l'implémenter moi-même, soit me diriger vers des bibliothèques/SDKs décents que je peux implémenter dans ce projet.

Répondre

2

Pour une bonne implémentation de l'algorithme VAD, vous pouvez utiliser py-webrtcvad.

Il s'agit d'une interface Python pour le code C, vous pouvez simplement importer des fichiers C du projet et les utiliser depuis swift.

+0

Merci! J'ai en fait déjà mis la main sur un port iOS de cette bibliothèque, mais je n'ai pas encore tout à fait compris comment l'appliquer aux tampons venant du micro, plutôt que de simplement le pointer sur un fichier audio existant ... astuces? Échantillons de code? –

+0

L'API traitée image par image, il ne devrait donc pas y avoir de problème pour traiter les tampons. –