2017-08-28 1 views
3

J'utilise la reconnaissance vocale ios et ça marche très bien quand il y a assez de contexte. J'utilise la reconnaissance vocale uniquement pour les entrées numériques et je vois des problèmes. Par exemple, avec des nombres à un chiffre (comme 2 - to, too, ou 8 - ate); il n'y a pas assez de contexte. Ou même avec quelques chiffres à deux chiffres (80 est parfois traduit comme idiot). Je voudrais indiquer à reconnaissance vocale que l'entrée va être numéro. Par exemple, si l'entrée est "numéro 2", le reconnaissance vocale fait un travail fantastique.Comment améliorer la reconnaissance vocale dans ios pour l'entrée numérique?

J'ai joué avec certains des indices - SFSpeechRecognitionTaskHint (non spécifié, dictée, recherche, confirmation) - mais aucun de ces modes sont bien adaptés pour l'entrée numérique.

Ainsi, les questions sont:

  • est-il un moyen de donner un indice à SFSpeechRecognizer que l'audio va être numérique? ou
  • Existe-t-il une autre technologie de reconnaissance vocale qui pourrait mieux convenir à mes besoins?

Notez également que je voudrais que cela fonctionne également dans de nombreuses langues différentes (pas seulement en anglais).

Merci pour votre aide, Eric

Répondre

2

Il n'y a rien actuellement dans le cadre discours qui vous permettra de le personnaliser pour des chiffres. Si vous dites que le texte précédant le mot «nombre» fonctionne mieux, vous pouvez essayer d'enregistrer un fichier vocal avec le son «numéro» et ajouter ce fichier à la volée à tout utilisateur, afin que vous obteniez une reconnaissance adéquate. Et couper le mot "nombre" du texte que vous recevez du cadre de discours après la reconnaissance est terminée. Cela semble hacky, mais je ne suis pas sûr qu'il existe d'autres solutions.

MISE À JOUR

L'autre option serait d'attendre et d'analyser de multiples variantes que vous recevrez dans SFSpeechTranscriptionResult.transcriptions[] https://developer.apple.com/documentation/speech/sfspeechrecognitionresult/1648282-transcriptions

Attendez que ce tableau contient quelque chose qui peut être interprété comme un nombre et ne pas accepter premier disponible.

+0

C'est un hack cool –

+0

Merci sha. J'aime l'idée mais j'ai quelques soucis. Premièrement, je ne sais pas si je peux mélanger et faire correspondre l'audio pré-rediffusé avec l'audio en direct. Je suppose que vous le pouvez, mais je n'ai jamais vu ça auparavant. Deux, et plus important encore, je voudrais que cela fonctionne avec beaucoup de langues - donc je ne sais pas comment cela fonctionnerait, surtout parce que dans certaines langues (le mandarin par exemple), il n'y a pas l'équivalent de "nombre ...". Au moins, c'est ce que me disent mes amis mandarins. – Eric