[논문 리뷰] Frequency Aware Transformer for Learned Image Compression (ICLR 24)

조민서·2025년 9월 17일

Learned Image Compression

Compression

목록 보기

1/7

FTIC (ICLR 2024)

ICLR 2024 논문으로 딥러닝을 이용한 이미지 압축 논문이다. (코드 O)

Contributions

인코더, 디코더 내에 Swin transformer의 4가지 형태로 윈도우 설정
인코더 디코더 FFN 부분에 주파수 변환 -> linear -> 역변환 수행
Entropy module의 autoregressive를 masked transformer 형태로 구현하였다.

Overview

전체 모델 구조 그림이다.
RBS: Residual block with stride
RBU: Residual block with upsampling
FAT: Frequency Aware Transformer

인코더, 디코더

여느 CNN+Transformer 조합의 autoencoder 구조와 같이 CNN 구조인 RBS / RBU와 Swin transformer 기반의 FAT block의 반복으로 이루어져 있다.

FAT (Frequency Aware Transformer)

4가지의 윈도우 형태

기존 Swin과 다르게 윈도우 형태를 4가지로 사용하였다. 위 그림과 같이 각 윈도우의 특성에 따라 얻을 수 있는 특징이 달라진다고 한다.
-> 이건 이론적으로 예측하긴 어려울 것 같고, 대충 이럴 것 같다고 상상한 뒤 실험 해봐야 떠올릴 수 있는 아이디어일 듯 하다.

FM (Frequency Modulation)