Je suis nouveau à la vision par ordinateur et commence à apprendre un sujet très populaire dans la communauté de vision par ordinateur, qui est SIFT. Mais je suis confondu avec un détail de mise en œuvre:Descripteur final dans SIFT
Après la détection d'un point clé, nous devons construire 4 par 4 histogrammes locaux, servant de descripteur SIFT final, non? Chaque histogramme local contient l'orientation d'un voisinage local de 4 par 4 pixels. Donc, dans l'ensemble, nous avons 16 fois 16 égale 256 pixels, qui sont dans un quartier autour du point clé. Donc, ce voisinage est une grille de 16 par 16 pixels.
Mais comment ce quartier est-il déterminé en détail? Le quartier est-il tourné en fonction de l'orientation du point clé? Les pixels de ce voisinage de 256 pixels sont-ils séparés en fonction de l'échelle à laquelle le point clé est détecté?
Merci pour toute aide à venir!