2009-01-18 6 views
5

Je prévois de démarrer une application qui convertit la parole en texte sous Linux. Existe-t-il des interfaces existantes pour pouvoir les étendre? ou Existe-t-il une telle application existante sous Linux? Toutes les entrées sur ce?Conversion de la parole en texte sous Linux

EDIT: L'application que je prévois d'écrire devrait être capable de convertir chaque mot que nous parlons en texte, pas seulement le Oui/Non.

Répondre

8

Eh bien, cela est tout à fait une entreprise et sans dire ce que la technologie que vous voulez utiliser, voici quelques liens:

Bonne chance. Avec plus de détails, nous pouvons être en mesure de fournir de meilleures réponses. Par exemple, il y a une grande différence entre la reconnaissance de type centre d'appel «oui/non» et une compréhension même partielle du langage naturel.

3

Les suggestions de Dave sont un bon début. Sphinx est très chouette.

Je veux juste ajouter que vous devriez être aussi probabiliste que possible. En tant que linguiste ponctuel et même ancien amateur de phonologie, je peux affirmer sans crainte ne pas être pris au dépourvu de modèles linguistiques. N'oublions pas l'erreur souvent attribuée "chaque fois que je tire un linguiste, ma précision augmente". Il s'agit vraiment du modèle et de ses capacités à tenir compte du bruit et de la variation plutôt que tout ce qu'un major des arts libéraux du MIT a à dire.

Un bon livre à retenir serait Jurafsky et Martin "Speech and Language Processing". Il a quelques applications très utiles de modèles computationnels pour la tâche. Le travail de Harvey Sussman sur les corrélations linéaires dans les pentes F2 pour une variété de voyelles (en commençant par les chouettes et travaillant vers les humains) semble être une bonne chose à mettre en œuvre dans un modèle de ces jours.

1

Sphinx est votre meilleur pari sur Linux. J'ai essayé Sphinx II et Sphinx III. Il existe des modèles de langage ouvert et acoustique disponibles qui peuvent être utilisés avec chacun d'entre eux. Pas une performance au niveau de la production, mais assez bonne pour le prototypage ou la démo. Pour la production, vous devrez développer votre propre langage et vos modèles acoustiques.