https://arxiv.org/pdf/2205.04437.pdf
HAT?
Hybrid Attention Transformer
ABSTRACT
기존의 트랜스포머 기반 방법은 super resolution에서 제한된 공간 범위만 활용할 수 있었음. Transformer의 잠재력이 아직 완전히 활용되지 않았음을 의미
채널 어텐션과 셀프 어텐션 체계를 결합하여 상호 보완적인 HAT을 제안
Cross-window information을 더 잘 집계하기 위해 오버랩되는 cross-attention module을 도입하여 인접한 window 간의 상호작용을 향상
train 단계에서는 추가 개선을 위해 동일한 task의 Pre-train 전략을 제안
논문 시점 기준 최근 방법보다 1dB이상 성능 향상
SR(super resolution)?
Transformer?
자연어 처리에서의 성공을 통해 컴퓨터 비전에 활발히 적용되고 있음
특히 새로 설계된 네트워크인 SwinIR은 이 분야에서 획기적인 개선
성공은 했지만 왜 CNN보다 transformer가 나은지는 미스터리…
대충 이런 종류의 네트워크가 self-attention 메커니즘의 이점을 얻고 장거리의 정보를 활용할 수 있기 때문이라고 추측됨
하지만 저자들은 SwinIR에서 재구성에 사용된 관련 정보의 범위를 조사하기 위해 속성 분석 방법인 LAM을 사용함
SwinIR이 SR에서 더 높은 성능을 얻더라도, 활용하는 정보의 범위가 제한되어 있어 경우에 따라 RCAN(CNN-BASED model 중 하나)보다도 안 좋은 결과를 나타내기도 함
이러한 현상은 Transformer가 로컬 정보를 모델링하는 능력이 강하지만 활용되는 정보의 범위를 확장해야 더 좋다는 것을 보여줌
위에서 언급한 문제를 해결하고 SR Transfomer의 잠재력을 극대화하기 위해 Hybrid Attention Transformer를 제안
HAT은 채널 어텐션과 셀프 어텐션 체계를 결합
Cross window 정보를 더 잘 집계하기 위해 overlapping cross-attention module을 도입
위의 설계 방식은 최근의 방법보다 0.3~ 1.2dB 성능 향상
전반적으로 3가지 핵심을 기여
RELATED WORK
SRCNN이 이미지 SR작업에 CNN을 처음 도입한 후로 기존의 방법보다 우수한 성능을 얻었기 때문에, 다양한 네트워크가 제안되었음
모델 표현 능력을 향상하기 위해 Residual Block, Dense Block과 같은 정교한 컨볼루션 모듈 설계를 적용하는 방법
재귀 신경망(recursive neural network)이나 그래프 신경망(graph neural network)과 같은 또 다른 프레임 워크를 사용하기도 함
더 현실적인 결과들을 생성하기 위해 적대적 학습 방법을 도입하기도 함
최근, Transformer-based 네트워크가 제안되고, SR 작업의 최신기술을 지속적으로 업데이트하여 Transformer의 강력한 표현 능력을 보여줌
SR 작동 메커니즘을 더 잘 이해하기 위한 SR Network 분석/해석 작업이 제안됨 [14, 35, 59, 22]
LAM[14]은 최종 성능에 가장 많이 기여하는 입력 픽셀을 탐색하기 위해 적분 그래디언트 방법을 채택
DDR[35]은 deep feature dimensionality reduction(심층 피쳐 차원 축소?) 및 시각화를 기반으로 한 SR 네트워크의 심층 의미론적 표현을 보여줌
FAIG[59]는 블라인드 SR에서 특정 품질 저하에 대한 판별 필터를 찾기 위해 제안됨
[22]는 Dropout이 실제 SR 네트워크에 대한 Co-adapting을 방지하는 데 도움을 줄 수 있음을 보여주기 위해 channel saliency(채널 돌출?)맵을 소개
이번 연구에선 LAM[14]을 이용하여 SR 네트워크의 동작을 분석하고 이해함
2. Vision Transformer
- 최근, Transformer[50]는 자연어 처리 분야에서 성공으로 컴퓨터 비전 커뮤니티의 주목을 받고 있음
- 이미지 분류[36, 13, 27, 44, 49], 객체 감지[34, 48, 36, 4, 6], 세분화[55, 51, 16, 2] 등 ViT가 장거리 종속성 모델링에서 높은 성능을 보임
- [5]는 특히 ViT 스타일의 네트워크를 개발하고 이미지 처리를 위한 multi-task pre-training을 도입
- SwinIR[29]는 [36]을 기반으로 이미지 복원 Transformer를 제안함
- [3, 28]은 비디오 복원에 Transformer 기반 네트워크를 소개함
METHOD
Swin Transformer[36]는 SR[29]에서 뛰어난 성능을 입증함
작동 메커니즘을 밝히기 위해 SR용으로 설계된 LAM[14]이라는 진단 도구를 사용
LAM을 사용하면 선택 영역에 가장 많이 기여하는 입력 픽셀을 알 수 있음
Transformer 기반의 방법인 SwinIR의 경우 CNN보다 더 좁은 범위를 나타냄(그림 2 (a))
그림 2 (b)를 보면 SwinIR의 중간 피쳐 맵에서 명확한 blocking artifacts를 관찰할 수 있음
위의 두 점을 기반으로 Transformer 기반 모델에서 채널 어텐션을 조사하고, 윈도우 기반 SR Transformer에 대한 cross-window Information을 더 잘 얻기 위해 cross-window based SR Transformer를 제안함
The Overall Structure
RHAG(Residual Hybrid Attention Group)?
HAB(Hybrid Attention Block)
CAB(Channel Attention Block)
OCAB(Overlapping Cross-Attention Block)
3. Pre-training on ImageNet
Experiments
HAT 구조에 의해 RHAG와 HAB는 모두 6으로 설정됨
전체 네트워크 채널은 180으로 설정
어텐션 헤드와 윈도우 크기는 (S)W-MSA와 OCA에 대해 각각 6과 16으로 설정
3.1에서 논의한 바와 같이 SR을 할 때 더 많은 입력 픽셀을 활성화하면 더 나은 성능을 얻음
[26]에서 저자는 다양한 window 크기의 효과를 조사했음
테이블 1과 같이 window 크기가 16인 모델이 Urban100에서 더 좋은 성능을 보임
그림 5에서와 같이 질적으로도 크기가 16인 모델이 8인 모델보다 훨씬 더 많은 입력 픽셀을 사용함
이 결론에 따라 크기가 16인 모델을 기본으로 사용함
Effectiveness of OCAB and CAB.
Effects of the overlapping size.
Effects of different designs of CAB.
Quantitative results.
Visual comparison.
테이블 6에서와 같이 사전훈련을 해주는게 훨씬 뛰어남
[ 내용 수정 및 그림 추가 예정 ]