Je voudrais obtenir une mesure de distance entre deux séquences audio. Par exemple, je veux comparer le son d'un animal au son d'un humain imitant cet animal, puis renvoyer une partition de la similitude des sons.Similitude de perception entre deux séquences audio
Cela semble être un problème difficile. Quelle serait la meilleure façon de l'aborder? Je pensais à extraire quelques caractéristiques des signaux audio, puis faire une distance euclidienne ou une similitude de cosinus (ou quelque chose comme ça) sur ces fonctionnalités. Quel genre de caractéristiques serait facile à extraire et utile pour déterminer la différence perceptuelle entre les sons?
(J'ai vu quelque chose sur la façon dont Ahazam utilise le hachage, mais cela semblait être un problème différent parce que les deux morceaux d'audio sont exactement les mêmes, avec l'ajout de bruit. la même chose, ils sont juste perceptivement similaires)
Merci. Je pourrais essayer de générer des spectres de fréquences de différents sons et de voir si un son similaire produit des spectres similaires, et pas des sons différents. D'après ce que je comprends du lien wikipedia, le spectre de fréquences doit-il être créé en utilisant Fourier Transform? – Bart