Convolution layer를 사용하는 네트워크라면 적용 가능.
Convolution 연산인 𝐹_𝑡𝑟을 통해 X(input) => U(feature map)로 변환됨.
Squeeze 연산(𝐹_𝑠𝑞)을 Convolution의 결과에서, 각 채널 별로 수행
Squeeze 연산으로 Global Average Pooling(GAP)을 사용
Squeeze의 효과는 ?
다른 Squeeze 연산으로 Max Pooling 등도 사용 가능함.
Excitiation의 전체 과정은 아래와 같음.
Reduction ratio(r)로 노드의 수를 줄였다 늘림.
Reduction ratio는 default=16으로 가성비가 좋으며, 튜닝이 필요할 수 있음.
SE Block를 여러가지 순서로 배치하여 실험.
SE-POST를 제외하고는, Standard 이상의 성능을 보였음.
TABLE12: Excitation 연산에서 연산자 선정
TABLE13: ResNet-50의 각 block별로 SE Block을 적용했을 때 성능
ResNet에서는 excitation에서 FC의 bias를 제거하면 채널 의존성을 모델링하기 더 좋음
We found empirically that on ResNet architectures, removing the biases of the FC layers in the excitation operation facilitates the modelling of channel dependencies