보라 - 인코더
노랑 - 디코더
피라미드 -> concat 진행하여 (채널)
linear layer -> channel 수 맞춰서 진행
i = set of pixel image (대문자 I)
k = 1x1 conv -> BN -> Relu
K = class K
g = 1x1 conv -> BN -> Relu
p = 1x1 conv -> BN -> Relu
omega = 1x1 conv -> BN -> Relu
m틸다 = softmax 취한 soft object regions
swin transformer
쪼개진 window 9개를 가지고 cyclic shift로
shift window self-attention로 인하여 위치를 변경하며
attention영향을 받도록 해준다.