3

Je suis assez nouveau dans le domaine de la reconnaissance d'expression faciale et actuellement je fais une recherche à ce sujet via Deep Learning spécifiquement CNN. J'ai quelques questions concernant la préparation et/ou le prétraitement de mes données.Préparation de données de reconnaissance d'expression faciale pour CNN

J'ai des vidéos segmentées d'expressions faciales frontales (par exemple 2 à 3 secondes de vidéo d'une personne exprimant une émotion heureuse basée sur ses annotations).

Remarque: Les expressions affichées par mes participants sont tout à fait de faible intensité (pas d'expressions exagérées/micro-expressions)

Question générale: Maintenant, comment dois-je préparer mes données pour la formation avec CNN (I suis un peu penché sur l'utilisation d'une bibliothèque d'apprentissage en profondeur, TensorFlow)? J'ai lu des articles de reconnaissance d'expression faciale (FER) basés sur l'apprentissage profond qui suggèrent de prendre le pic de cette expression (très probablement une seule image) et d'utiliser cette image dans le cadre de vos données d'entraînement . Comment saurais-je le pic d'une expression? Quelle est ma base? Si je vais prendre une seule image, est-ce que des cadres importants de la subtilité de l'expression affichée par mes participants ne seraient pas perdus?

Question 2: Ou serait-il aussi correct d'exécuter la vidéo segmentée en OpenCV afin de détecter (par exemple Viola-Jones), rogner et enregistrer les visages par image, et d'utiliser ces images dans le cadre de ma formation des données avec leurs étiquettes appropriées? Je suppose que certaines images de visages sont redondantes. Cependant, comme nous savions que les participants à nos données montrent une faible intensité d'expressions (micro-expressions), certains mouvements du visage pourraient aussi être importants.

J'apprécierais vraiment tous ceux qui peuvent répondre, merci beaucoup!

Répondre

2

Comme @unique singe déjà souligné, il s'agit généralement d'une tâche d'apprentissage supervisé. Si vous souhaitez extraire un point de "crête" indépendant, je vous recommande de scanner les images d'entrée et de trouver celle de chaque séquence dont les points de référence s'écartent le plus de l'état de repos du sujet.

Si vous n'avez pas obtenu d'état de repos, comment les clips vidéo sont-ils recadrés? Par exemple, a-t-on dit aux sujets de faire l'expression et de la tenir? Quelle partie de l'expression totale (avant, express, après) le clip couvre-t-il? Prenez l'un ou les deux points d'extrémité du clip vidéo. tracer les mouvements des points de référence à partir de chaque extrémité et chercher un cadre dans lequel la différence est la plus grande, puis se tourner vers l'autre extrémité.

+0

Bon, c'est ce que j'ai oublié de mentionner. Mes données contiennent des expressions faciales spontanées. Au début, un sujet était enregistré en faisant une certaine activité pour toute la session. Après la session, on lui demande d'annoter toute l'activité dans laquelle s'il/elle pense qu'une expression particulière pendant une certaine période de temps dans la vidéo est par exemple heureuse, il/elle annote cette période de temps pour être heureux . C'est le processus. Les vidéos ont été recadrées en fonction de l'annotation des sujets, donc je pense que ce serait un jugement subjectif si je devais déterminer le pic. Merci – Renz

+0

Cela implique que vous * avez * un état de repos sur vidéo, puis, avec la propre évaluation du sujet d'être dans aucun état émotionnel particulier. Dans ce cas, mon premier paragraphe s'applique. – Prune

+0

En parlant de votre dernier point, oui, il serait utile d'utiliser le clip vidéo pour exprimer toute l'émotion. Cependant, ma compréhension du domaine dit que c'est excessif pour votre application: un cadre «pic» représentatif devrait suffire. – Prune

1

réponse 1: Généralement nous dépendons toujours du sens de l'être humain de décider quelle expression est le sommet de l'expression (je pense que vous pouvez distinguer la différence de sourire et rire)

réponse 2: si vous Pour obtenir un bon résultat, je vous suggère de ne pas traiter les données aussi grossières comme cette méthode

+0

** Réponse 1 **: Vous avez raison, il serait assez facile de reconnaître des expressions à travers la détection humaine, cependant, ne serait-il pas biaisé de dire qu'une expression particulière est (par exemple) heureuse basée sur ma jugement? Et si ça ne l'est pas pour les autres? Comment saurais-je s'il exprime de la peur, de la colère, etc.? ** Réponse 2 **: Je suis neutre sur ce point, pouvez-vous justifier pourquoi est-ce le cas si mes participants montrent une faible intensité d'expressions? Les petits mouvements du visage ne sont-ils pas importants? – Renz

+0

@Renz vous pouvez juste le juger par vous-même, le point clé du problème est que le modèle d'apprentissage de la machine pourrait avoir le même jugement que vous ou pas ..... –

+0

Je suis désolé, mais je ne suis toujours pas convaincu manuellement choisir un pic particulier d'une expression parce qu'il peut être biaisé à ma compréhension. Je pense que si vous avez des documents, cela serait utile pour que je puisse discuter de cela avec confiance. Merci – Renz