Je suis assez nouveau dans le domaine de la reconnaissance d'expression faciale et actuellement je fais une recherche à ce sujet via Deep Learning spécifiquement CNN. J'ai quelques questions concernant la préparation et/ou le prétraitement de mes données.Préparation de données de reconnaissance d'expression faciale pour CNN
J'ai des vidéos segmentées d'expressions faciales frontales (par exemple 2 à 3 secondes de vidéo d'une personne exprimant une émotion heureuse basée sur ses annotations).
Remarque: Les expressions affichées par mes participants sont tout à fait de faible intensité (pas d'expressions exagérées/micro-expressions)
Question générale: Maintenant, comment dois-je préparer mes données pour la formation avec CNN (I suis un peu penché sur l'utilisation d'une bibliothèque d'apprentissage en profondeur, TensorFlow)? J'ai lu des articles de reconnaissance d'expression faciale (FER) basés sur l'apprentissage profond qui suggèrent de prendre le pic de cette expression (très probablement une seule image) et d'utiliser cette image dans le cadre de vos données d'entraînement . Comment saurais-je le pic d'une expression? Quelle est ma base? Si je vais prendre une seule image, est-ce que des cadres importants de la subtilité de l'expression affichée par mes participants ne seraient pas perdus?
Question 2: Ou serait-il aussi correct d'exécuter la vidéo segmentée en OpenCV afin de détecter (par exemple Viola-Jones), rogner et enregistrer les visages par image, et d'utiliser ces images dans le cadre de ma formation des données avec leurs étiquettes appropriées? Je suppose que certaines images de visages sont redondantes. Cependant, comme nous savions que les participants à nos données montrent une faible intensité d'expressions (micro-expressions), certains mouvements du visage pourraient aussi être importants.
J'apprécierais vraiment tous ceux qui peuvent répondre, merci beaucoup!
Bon, c'est ce que j'ai oublié de mentionner. Mes données contiennent des expressions faciales spontanées. Au début, un sujet était enregistré en faisant une certaine activité pour toute la session. Après la session, on lui demande d'annoter toute l'activité dans laquelle s'il/elle pense qu'une expression particulière pendant une certaine période de temps dans la vidéo est par exemple heureuse, il/elle annote cette période de temps pour être heureux . C'est le processus. Les vidéos ont été recadrées en fonction de l'annotation des sujets, donc je pense que ce serait un jugement subjectif si je devais déterminer le pic. Merci – Renz
Cela implique que vous * avez * un état de repos sur vidéo, puis, avec la propre évaluation du sujet d'être dans aucun état émotionnel particulier. Dans ce cas, mon premier paragraphe s'applique. – Prune
En parlant de votre dernier point, oui, il serait utile d'utiliser le clip vidéo pour exprimer toute l'émotion. Cependant, ma compréhension du domaine dit que c'est excessif pour votre application: un cadre «pic» représentatif devrait suffire. – Prune