Répondre

1

Vous faites probablement référence au scientific paper de Ronneberger et al. Dans lequel l'architecture U-Net a été publiée. Là le graphique montre ces nombres.

U-Net architecture

L'explication est un peu caché dans la section « 3. Formation » du papier:

En raison des circonvolutions unpadded, l'image de sortie est inférieure à l'entrée par un largeur de bordure constante.

Cela signifie que lors de chaque convolution, une partie de l'image est « coupée », car la convolution va commencer dans une coordonnée de sorte qu'elle chevauche complètement avec l'entrée-image/entrée-goutte de la couche. Dans le cas de convolutions 3x3, il s'agit toujours d'un pixel de chaque côté. Pour plus d'une explication visuelle des noyaux/convolutions voir par ex. here. La sortie est plus petite car, en raison du recadrage survenant lors des convolutions non rembourrées, seule la partie interne de l'image obtient un résultat.

Ce n'est pas une caractéristique générale de l'architecture, mais quelque chose d'inhérent aux circonvolutions (non rembourrées) et peut être évité avec le rembourrage. La stratégie la plus courante est probablement la mise en miroir des bordures de l'image, de sorte que chaque convolution peut commencer au bord même d'une image (et voit les pixels en miroir dans les endroits où le noyau se chevauche). Ensuite, la taille d'entrée peut être préservée et l'image complète sera segmentée.