Je prévois d'écrire un logiciel d'analyse de conversation qui reconnaîtra les haut-parleurs individuels, leur hauteur et leur intensité. Le pitch et l'intensité sont assez simples (pitch par autocorrélation).Reconnaissance des voix individuelles
Comment est-ce que je devrais reconnaître des haut-parleurs individuels, afin que je puisse enregistrer ses caractéristiques? Est-ce que stocker des heuristiques pour les fréquences de chaque locuteur sera suffisant? Je peux supposer qu'une seule personne parle à la fois (strictement sans chevauchement). Je peux également supposer que pour la formation, chaque locuteur peut enregistrer une minute de données avant l'analyse réelle.
+1 pour problème impossible –
Comment allez-vous gérer l'intensité? Le microphone est-il toujours à une distance fixe de la personne qui parle? – mtrw
Je suis sûr qu'il existe des thèses de doctorat sur ce sujet, mais je ne suis pas sûr que leurs auteurs soient actifs sur stackoverflow ... – Justin