J'utilise pocketsphinx pour convertir l'audio en texte. Ça fonctionne bien. Maintenant, je veux obtenir l'horodatage de chaque mot. Ceci est mon code:pocketphinx python donne un mauvais timestamp
import speech_recognition as sr
r = sr.Recognizer()
framerate = 100
with sr.AudioFile("1.wav") as source:
audio = r.record(source)
decoder = r.recognize_sphinx(audio, show_all=False)
print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()])
Selon leur documentation, le framerate par défaut est 100. Je suis arrivé le temps à partir de chaque mot. Cependant, c'est incorrect. La différence est de 2 secondes, parfois plus de 3 secondes.
Il est connu problème ou Suis-je quelque chose manquant?