2017-10-20 18 views
0

J'ai récemment suivi un cours chez Neural Networks et j'ai décidé de faire un travail de recherche. Ce que j'ai considéré est la conception d'un réseau qui reconnaît le mouvement des lèvres, ce qui est communément connu comme lecture des lèvres.Recommandation en analyse vidéo avec réseau neuronal

Je sais que la théorie sur les réseaux de neurones, j'ai choisi de concevoir un réseau de neurones Convolutif mais j'ai problèmes penser à la façon d'extraire les caractéristiques de la vidéo ou séquence d'images qui servira entrée sur le réseau que je prévois de concevoir.

Avant de me concentrer sur l'enquête complète, je voulais être aidé un peu en me donnant des concepts ou des idées sur la façon de le faire, principalement dans le partie d'extraction de caractéristiques.

Ce que j'ai pensé en général est le suivant:

une voyelle ou syllabe dure environ 1 à 2 secondes dans la vidéo. De cette vidéo, je dois extraire une séquence d'images qui montrent comment les lèvres bougent. En supposant que j'ai sélectionné environ 10 ou 15 images, je suppose que toutes ces images, après avoir été traitées, devraient être ma "contribution" pour obtenir les caractéristiques.

Mais j'ai déjà analysé une seule image, comme l'exemple classique de "Reconnaître une lettre" mais, comme je l'ai déjà dit, je suppose que j'aurai une séquence d'images à analyser et cela me déroute un peu.

Je voudrais savoir si je suis sur la bonne voie avec cette idée et si ce n'est pas le cas, je voudrais qu'ils me guident avec cela. J'espère avoir été clair avec ce qui précède, merci beaucoup.

Répondre

0

Ce document devrait vous aider à décider comment gérer la séquence d'images en entrée d'un réseau de neurones. On dirait que vous pouvez concaténer (combiner) toutes les images pour un son particulier en une image et alimenter votre net pour la formation et l'évaluation.

http://cs231n.stanford.edu/reports/2016/pdfs/217_Report.pdf

+0

Merci beaucoup pour la contribution! –