2017-03-24 3 views
1

Pouvez-vous donner et donner des exemples d'utilisation de conseils sur les mots dans l'API Google Cloud? J'essaie d'utiliser l'exécuteur Rest API pour brook.flac. J'introduis l'expression Brooklin (au lieu de Brooklyn) mais le résultat est le même. Est-ce qu'ils fonctionnent du tout?Mot de l'API Google Cloud Speech Astuces

Répondre

3

De https://cloud.google.com/speech/docs/basics#phrase-hints

Pour toute tâche de reconnaissance donnée, vous pouvez également passer un speechContext (de type SpeechContext) qui fournit des informations pour aider à traiter l'audio donné. Actuellement, un contexte peut contenir une liste de phrases pour servir de "conseils" au dispositif de reconnaissance; ces phrases peuvent augmenter la probabilité que de tels mots ou expressions soient reconnus.

Vous pouvez utiliser ces conseils de phrase dans quelques façons:

améliorer la précision des mots et des expressions spécifiques qui peuvent avoir tendance à être surreprésentées dans vos données audio. Par exemple, si des commandes spécifiques sont généralement prononcées par l'utilisateur, vous pouvez les fournir sous forme de conseils de phrases. De telles phrases supplémentaires peuvent être particulièrement utiles si l'audio fourni contient du bruit ou si le discours contenu n'est pas très clair. Ajoutez des mots supplémentaires au vocabulaire de la tâche de reconnaissance. L'API Cloud Speech comprend un très large vocabulaire. Toutefois, si les noms propres ou les mots spécifiques au domaine sont hors vocabulaire, vous pouvez les ajouter aux expressions fournies dans speechContext de vos demandes. Les phrases peuvent être fournies à la fois en petits groupes de mots ou en mots simples. (Voir Limites de contenu pour les limites sur le nombre et la taille de ces phrases.) Lorsqu'elles sont fournies sous forme d'expressions multi-mots, les indices augmentent la probabilité de reconnaître ces mots dans l'ordre mais aussi, dans une moindre mesure, augmentent la probabilité de reconnaissance. phrase, y compris les mots individuels.

Par exemple, ce fichier shwazil_hoful.flac contient des mots maquillés. Si la reconnaissance est effectuée sans fournir ces mots hors vocabulaire, le dispositif de reconnaissance ne renverra pas la transcription désirée, mais plutôt retournera les mots qui sont dans le vocabulaire, tels que: "c'est une journée entière d'avaler".

{ 
    "config": { 
    "encoding":"FLAC", 
    "sampleRateHertz": 16000, 
    "languageCode":"en-US" 
    }, 
    "audio":{ 
    "uri":"gs://speech-demo/shwazil_hoful.flac" 
    } 
} 

Cependant, lorsque ces hors-vocabulaire les mots sont fournis à la demande de reconnaissance, la reconnaissance retournera la transcription souhaitée: «c'est un jour hoful shwazil ».

{ 
    "config": { 
    "encoding":"FLAC", 
    "sampleRateHertz": 16000, 
    "languageCode":"en-US", 
    "speechContexts": { 
     "phrases":["hoful","shwazil"] 
    } 
    }, 
    "audio":{ 
    "uri":"gs://speech-demo/shwazil_hoful.flac" 
    } 
} 

Par ailleurs, si certains mots sont généralement dit ensemble dans une phrase, ils peuvent être regroupés, ce qui peut encore augmenter la confiance qu'ils seront reconnus.

{ 
    "config": { 
    "encoding":"FLAC", 
    "sampleRateHertz": 16000, 
    "languageCode":"en-US", 
    "speechContexts": { 
     "phrases":["shwazil hoful day"] 
    } 
    }, 
    "audio":{ 
    "uri":"gs://speech-demo/shwazil_hoful.flac" 
    } 
} 

En général, soyez prudent lorsque vous fournissez des indications de contexte de langage. Une meilleure précision de la reconnaissance peut être obtenue en limitant les phrases à celles qui sont censées être parlées. Par exemple, s'il existe plusieurs états de boîte de dialogue ou modes de fonctionnement de l'appareil, fournissez uniquement les indices correspondant à l'état actuel, plutôt que de toujours fournir des conseils pour tous les états possibles.

+0

Merci, je comprends –

+0

@PavelPopov quelque chose que j'ai trouvé, que l'indication d'une phrase qui contient votre mot d'indice souhaité à l'API de la parole de Google fonctionne bien mieux que juste indiquant le mot seul. L'Api peut détecter votre mot personnalisé avec plus de succès pendant la reconnaissance vocale, même si les mots qui l'entourent sont différents de la phrase que vous avez spécifiée comme indice. – Josh