3

J'essaie d'utiliser l'API Google Cloud Speech. Il y a la documentation et des exemples de code ici:Quels types de fichiers audio l'API Google Cloud Speech reconnaît-elle?

https://cloud.google.com/speech/docs/basics 
https://cloud.google.com/speech/docs/rest-tutorial 

Je peux obtenir le code d'échantillon pour exécuter très bien si je signale à un fichier inclus, audio.raw, mais pas avec un fichier bref .wav.

Je ne sais pas quel format le fichier audio est échantillon:

$ file audio.raw 
audio.raw: data 

Avec mon fichier .wav qui a peut-être 10 secondes de l'audio-je obtenir un résultat vide.

Je connais cette réponse.

google cloud speech api returning empty result

Ma question a déjà été posée, mais il n'y avait pas une réponse à la question.

What types of audio are supported by Cloud Speech API?

Je ne peux pas imaginer que je devrais obtenir les propriétés du fichier audio juste pour obtenir ce travail. Je suppose qu'un cas d'utilisation commun, le mien, est que quelqu'un enregistre une réunion, n'a aucune idée des paramètres de l'enregistrement et veut juste un fichier texte.

+0

Je vois que vous @ Alex a répondu à http://stackoverflow.com/questions/39712623/google-cloud-speech-api-returning-empty-result. Des pensées sur ma question? – Sol

+1

Vous ne pouvez pas envoyer d'autres messages sur SO (@foo ne fonctionne pas comme ça ici) –

+0

Bon à savoir. Merci. – Sol

Répondre

3

WAV e ne semble pas être pris en charge. Ces formats sont documentés comme étant pris en charge:

  • LINEAR16 Échantillons little-endian non compressés à 16 bits. C'est le seul codage qui peut être utilisé par speech.asyncrecognize.
  • FLAC Codage recommandé pour speech.syncrecognize et StreamingRecognize car il utilise la compression sans perte; par conséquent, la précision de la reconnaissance n'est pas compromise par un codec avec perte. Seuls les échantillons 16 bits sont pris en charge. Tous les champs de STREAMINFO ne sont pas pris en charge
  • Exemples MULAW 8 bits qui contiennent des échantillons audio 14 bits à l'aide de la loi G.711 PCMU/MU.
  • AMR Codec à bande étroite adaptatif à plusieurs débits. sampleRate doit être de 8000 Hz.
  • AMR_WB Codec adaptatif à large bande large bande. sampleRate doit être 16000 Hz.

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

+0

Merci. Cela m'a permis de surmonter ce problème. J'ai installé sox et converti le fichier .wav en .flac. Maintenant, je reçois un problème différent que je vais rechercher et publier séparément. – Sol

+1

comme pour flac: 'Seuls les échantillons 16 bits sont pris en charge. Tous les champs de STREAMINFO ne sont pas pris en charge. Vérifie les documents –