0

Actuellement, moi et trois de mes amis travaillons sur un projet pour générer une description d'image basée sur les objets dans cette image particulière (Lorsqu'une image est donnée au système, une nouvelle description doit être généré en fonction des objets et des relations entre eux). Il suffit donc à une personne d'identifier des objets dans l'image et de les étiqueter à l'aide d'un CNN régional rapide (FRCNN). Pour ma part je dois implémenter une description significative basée sur ces étiquettes d'image (la sortie du FRCNN a l'intention de prendre comme entrée à mon RNN) en considérant la relation entre elles.Générer une description d'image significative basée sur des étiquettes d'image

Actuellement, je prévois de mettre en œuvre un réseau neuronal récurrent (RNN) pour générer la description. mais cependant j'ai un doute que s'il est possible de générer une description en utilisant un RNN quand on vient de donner un ensemble de mots (noms d'étiquettes d'images) comme une entrée. puisque les RNN sont principalement utilisés pour des cas d'utilisation qui ont des séquences et si je donne juste des noms d'étiquettes, pourra-t-il générer une description en considérant la relation entre eux?

Si non, quelqu'un peut-il me dire quelle serait la meilleure façon de l'implémenter? PS: Je suis très novice dans l'apprentissage automatique et j'espère avoir une idée claire pour trouver une meilleure solution.

+0

Ceci est appelé l'image Sous-titrage, avez-vous lu l'état des papiers d'art à ce sujet? –

+0

ouais j'ai lu plusieurs articles de recherche. La recherche d'Andrej Karpathy sur les «Alignements profonds visuels et sémantiques pour la génération de descriptions d'images» a été l'une de mes plus grandes préoccupations. Mais le problème que j'ai est de savoir si un RNN est capable de générer une description basée uniquement sur les noms d'étiquettes. Dans de nombreux documents de recherche, ils utilisent un CNN pour extraire des fonctionnalités et incorporer cet ensemble de fonctionnalités (dernière couche cachée) avec un modèle de langage entraîné dans un modal intégré commun pour générer une description. –

+0

Problème que j'ai, c'est que je ne peux pas donner la sortie de la dernière couche cachée du FRCNN à mon RNN. parce que la personne qui met en œuvre le FRCNN doit envoyer les objets identifiés à l'utilisateur. Comme je sais que l'utilisation d'un CNN objets identifiés peuvent être acquis uniquement à travers la couche finale de la CNN. Donc, si nous supprimons cette dernière couche du CNN, cette personne ne peut pas sortir les objets identifiés. Ai-je raison ? –

Répondre

0

En fait, j'apprends aussi RNN maintenant. Et je crois à partir d'une seule image, il est possible de générer une phrase pour le décrire, si l'image est significative.

je vais vous partager un certain matériel que je pense qu'il est utile

https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0ahUKEwjf_pKusPLUAhUTrRQKHQjMAlcQFgg2MAI&url=https%3A%2F%2Fcs224d.stanford.edu%2Freports%2Fmsoh.pdf&usg=AFQjCNHqAkpk6haw87Cx3X23TDjRBFN6aA

+0

Merci Yirui. Oui, je pense qu'il est possible de générer une description à partir d'une seule image. mais pour cela nous avons besoin d'un CNN ou d'un moyen approprié pour extraire les caractéristiques de l'image non? En fait j'ai développé mon problème un peu plus dans les 2 commentaires ci-dessus. Pensez-vous qu'il est possible de générer la description en utilisant un RNN avec le problème que j'ai? –