2017-10-11 3 views
2

Je suis à la recherche d'une plate-forme logicielle qui aidera les linguistes et les anthropologues dans leur étude de langues auparavant non étudiées. Les statistiques montrent qu'il existe environ 1000 langues qui n'ont jamais été étudiées par une personne en dehors de leurs groupes de locuteurs respectifs. Mon objectif est d'utiliser TensorFlow pour créer une plate-forme qui permettra aux linguistes d'étudier et de documenter ces langages plus efficacement et de les aider à créer des systèmes écrits pour ceux qui n'ont pas encore de système écrit. Une de leurs méthodes actuelles d'accomplissement d'une telle tâche est triple: 1) Enregistrer un locuteur natif conversant dans la langue, 2) Écouter cet enregistrement et essayer de le transcrire dans l'API, 3) De la phonétique, analyser les phonèmes et phonotactique de la langue pour éventuellement créer un système écrit pour le locuteur.Transcription IPA (alphabet phonétique international) avec Tensorflow

La plateforme que je propose réduirait le temps de recherche d'un minimum d'un an à un maximum de six mois. Avant de commencer, j'ai quelques questions ...

Qu'est-ce qui serait nécessaire pour former TensorFlow à transcrire l'audio en direct dans l'API? Est-ce que cela a déjà été fait? et si oui, comment pourrais-je utiliser une solution précédente pour ce projet? Un projet comme celui-ci est-il possible avec TensorFlow? Si non, que recommanderiez-vous d'utiliser à la place?

Mes excuses pour l'ampleur de cette question. Je n'ai pas beaucoup d'expérience dans le domaine de l'apprentissage automatique, car je ne fais que commencer le processus de recherche pour ce projet. Toute aide est appréciée!

+0

Avez-vous parlé à un linguiste à ce sujet? La reconnaissance des phonèmes peut être beaucoup plus difficile que la reconnaissance des mots https://cmusphinx.github.io/wiki/phonemerecognition/ – Aaron

+0

@Aaron techniquement, c'est * téléphones * ici, pas de phonèmes, mais je ne sais pas si ça rend mieux ... – lenz

Répondre

1

Je suppose que je vais essayer d'y répondre pour la première fois. Puisque la question est assez générale, ma réponse devra aussi être assez générale.

  1. Ce qui serait nécessaire. À tout le moins, vous devriez avoir un grand ensemble de données pré-transcrites. Idéalement, une grande quantité d'audio en langage parlé devrait correspondre aux caractères de l'alphabet phonétique, de sorte que le système pourrait apprendre le son de caractères individuels plutôt que des mots entiers transcrits. Si un tel ensemble de données n'existe pas, un ensemble de données moins granulaire pourrait être utilisé, en mappant des mots simples à leurs transcriptions. Ensuite, vous auriez besoin d'un modèle, c'est-à-dire de l'architecture de réseau de neurones implémentée dans le code. Et enfin, vous auriez besoin de ressources informatiques. Ce n'est pas quelque chose que vous pouvez former avec désinvolture, vous devrez soit acheter un peu de temps dans un environnement d'apprentissage machine basé sur le cloud (comme Google Cloud ML), soit construire une machine assez chère pour vous entraîner à la maison.

  2. Est-ce que cela a été fait? Je ne sais pas. Je ne pense pas. Il y a eu des articles publiés rapportant divers degrés de succès dans les systèmes de formation pour transcrire la parole. En voici un, par exemple: http://deeplearning.stanford.edu/lexfree/lexfree.pdf Il semble que puisque l'alphabet que vous voulez transcrire est spécifiquement conçu pour capturer la façon dont les mots sonnent plutôt que de simplement écrire les mots, vous pourriez avoir plus de succès à former un tel modèle.

  3. Est-ce possible avec TensorFlow? Oui, très probablement. TensorFlow est bien adapté pour implémenter les architectures d'apprentissage en profondeur les plus modernes. À moins que vous ne finissiez par concevoir un modèle vraiment bizarre et très original à cet effet, TensorFlow devrait fonctionner correctement.

Modifier: après réflexion dans la partie 1, vous devez utiliser un mappage de dataset mots parlé à leurs transcriptions, puisque je pense que le même son prononcé séparément serait différent de quand même son est utilisé dans un mot.