[논문 정리] FEATUP: A Model-Agnostic Framework for Features at Any Resolution

bluein·2024년 4월 5일

논문 정리

https://arxiv.org/abs/2403.10516

1. INTRODUCTION

Deep feature들은 semantic quality을 위해 종종 공간 해상도를 희생
예를 들어 ResNet-50은 224×224 픽셀 입력에서 7×7 deep feature를 생성
ViT 조차도 상당한 해상도 감소가 발생하기 때문에 이러한 feature만으로는 segmentation이나 depth estimation 같은 dense prediction 작업을 수행하기 어려움
이러한 문제를 완화하기 위해, 본 논문에서는 FeatUp이라는 프레임워크를 제안
모델의 출력에서 여러 "jittered" 이미지에 걸쳐 저해상도 뷰를 aggregate 함으로써 고해상도 정보를 학습
본 논문에서는 upsampling을 위한 두 가지 아키텍처를 탐구

1) 이미지에 걸쳐 일반화되는 single guided upsampling feedforward network
2) 단일 이미지에 overfit 된 implicit representation
본 논문의 Contribution은 아래와 같음
- FeatUp: 빠른 up-sampling feedforward network를 이용해 feature를 좋은 품질로 up-sampling 시키는 방법
- 표준 PyTorch 구현보다 수천 배 더 효율적이며 대규모 모델에서 guided upsampling을 허용하는 Joint Bilateral Upsampling의 고속 CUDA 구현
- FeatUp feature가 dense prediction 작업 및 모델 설명력 향상을 위해 일반 feature의 drop-in replacement로 사용될 수 있음을 보여줌

3. METHOD

FeatUp의 핵심 아이디어는 저해상도 feature의 다양한 "뷰"를 관찰함으로써 고해상도 feature를 계산할 수 있다는 것
NeRF (Mildenhall et al., 2020)의 아이디어에서 고안, NeRF는 2D 사진 여러 장으로 3D 장면의 암시적 표현을 구축, FeatUp은 다양한 저해상도 feature map에 걸쳐 일관성을 강제하여 up-sampler 구축

위 그림은 FeatUp training의 구조
먼저 단일 고해상도 출력으로 정제할 저해상도 feature 뷰를 생성
이를 위해 입력 이미지에 small pads, scales, horizontal flip 적용
이러한 작은 이미지 jitter를 통해 출력 feature의 미세한 차이를 관찰하고 업샘플러 학습을 위한 sub-feature 정보를 제공
다음으로 이 뷰들로부터 일관된 고해상도 feature map을 구성
Downsampling 시 저해상도 jitter feature를 재현하는 잠재 고해상도 feature map을 학습할 수 있다고 가정
NeRF와 달리 각 뷰를 생성하는 매개변수를 추정할 필요는 없음
대신 각 이미지를 "jitter"하는 데 사용된 매개변수를 추적하고, 동일한 변환을 학습한 고해상도 feature에 downsampling 전에 적용
그런 다음 gaussian likelihood loss를 사용하여 downsampling된 feature와 실제 모델 출력을 비교
좋은 고해상도 feature map은 다양한 뷰에 걸쳐 관측된 feature를 재구성할 수 있어야 함

위 수식에서 t ∈ T는 pad, zoom, crop, h-flip과 같은 transform
x는 입력 이미지, f는 backbone, σ↓는 학습된 downsampler, σ↑는 학습된 upsampler
이 때, Fhr = σ↑(f(x), x)를 평가하여 예측된 고해상도 feature인 Fhr을 생성할 수 있음
∥·∥은 표준 제곱 l2 norm
s = N (f (t(x))) 는 소규모 linear network N에 의해 매개변수화된 공간적으로 변화하는 adaptive uncertainty 임
s를 통해 MSE loss의 불확실성을 처리할 수 있는 적절한 likelihood로 변환
이 추가적인 flexibility를 통해 네트워크가 특정 outlier feature들이 근본적으로 업샘플링될 수 없다는 것을 학습할 수 있음

3.1 CHOOSING A DOWNSAMPLER

학습된 downsampler인 σ↓를 선택하는 두 가지 옵션이 있음
- 빠르고 간단한 학습된 blur kernel
- 더 유연한 attention 기반 downsampler

위 그림은 두 방법을 나타내는데, 모두 feature의 "space" 또는 "semantics"를 변경하지 않고 오직 small neighborhood 내에서만 feature를 interpolation
Blur 기반 downsampler는 효율적이지만, dynamic receptive fields, object salience 또는 기타 nonlinear effects를 포착할 수 없음
Attention 기반 downsampler는 공간적으로 적응되는 downsampling 커널을 사용하는 더 유연한 attention downsampler를 도입
간단히 말해, 1x1 컨볼루션을 사용하여 고해상도 feature에서 saliency map을 예측

3.2 CHOOSING AN UPSAMPLER

핵심은 σ↑의 매개변수화

위 그림처럼 두 가지 변형이 있음
- JBU (Joint Bilateral Upsampler) -> 이미지 집합에 걸쳐 일반화되는 upsampling 전략을 학습
- Implicit -> implicit 네트워크로 매개변수화하며, 단일 이미지에 과적합되면 매우 선명한 feature를 생성할 수 있음

Joint Bilateral Upsampler

◦ 는 function composition
JBU는 저해상도 feature map Flr을 고해상도 신호 G를 guidance로 사용하여 upsampling

위 수식은 joint bilateral upsampling을 나타낸 것
Fˆ hr[i, j]는 최종 고해상도 feature map의 (i, j) 좌표에 대한 값

Ω는 (i, j) 좌표의 주변 픽셀 영역(예: 3x3 정사각형)

(a, b)는 Ω 내부의 각 픽셀 좌표

Flr[a, b]는 저해상도 feature map의 (a, b) 좌표 값

krange(G[i, j], G[a, b])는 고해상도 가이드 신호 G의 (i, j)와 (a, b) 좌표 간 유사도를 나타내는 범위 커널

kspatial([i, j], [a, b])는 (i, j)와 (a, b) 좌표 간 거리에 기반한 공간 커널

이 모든 값을 더하고 정규화 상수 Z로 나누어 최종 Fˆ hr[i, j]를 계산

즉, 저해상도 feature와 고해상도 가이드 신호간의 feature를 결합하여 고해상도 feature를 생성하는 과정

위 수식은 kspatial은 공간적인 근접성을 반영하여 저해상도 feature와 고해상도 가이드 신호 간의 관계를 모델링
kspatial은 좌표 벡터 간 유클리드 거리에 기반한 학습 가능한 가우시안 커널
σ_spatial은 가우시안 커널의 폭 parameter

위 수식은 krange는 고해상도 가이드 정보를 활용하여 범위 정보를 모델링하는 역할
(a,b) 는 주변 픽셀 영역 Ω 내의 좌표
MLP는 다층 퍼셉트론 네트워크로, G[i,j]와 G[a,b]를 입력받아 feature를 추출
이 MLP 출력 벡터간 내적을 계산하고, 이를 온도 σ_range^2로 나누어 소프트맥스 함수를 적용

Implicit

이 방법은 NeRF와 유사한 아이디어를 사용하여 단일 이미지의 고해상도 feature를 implicit 함수 Fhr = MLP(z)로 매개변수화
DIP(Ulyanov et al., 2020)와 LIIF(Chen et al., 2021) 등의 기존 upsampling 솔루션도 이와 같은 추론 시간 학습 접근법을 사용
입력 이미지의 좌표와 픽셀 강도를 이용하여 작은 MLP를 통해 고차원 feature를 생성
공간 해상도 향상을 위해 Fourier feature를 사용하며, 색상 정보를 포함하는 Fourier color feature을 추가로 사용
Fourier color feature를 사용하면 수렴 속도가 빨라지고 CRF 등의 추가 기술 없이도 고해상도 이미지 정보를 효과적으로 활용할 수 있음

위 수식에서
- ei, ej는 [-1, 1] 범위의 2차원 픽셀 좌표 필드
- x는 입력 이미지
- ω̂는 discrete Fourier transform에 사용되는 주파수 벡터
- h(·)는 입력 신호에 대한 성분별 discrete Fourier transform
- : 는 채널 차원으로의 연결 연산
이렇게 계산된 입력 (ei, ej, x)에 대한 Fourier feature가 MLP의 입력으로 들어가며, MLP는 이를 통해 최종 고해상도 feature map Fhr을 출력

4. EXPERIMENTS

4.1. QUALITATIVE COMPARISONS

Visualizing upsampling methods

위 그림에서는 FeatUp 모델이 다양한 baseline 모델들에 비해 큰 성능 향상을 보여주고 있음
저해상도 ViT feature에 대해 3차원 PCA 분석을 수행하고, 이를 통해 업샘플링된 feature를 RGB 공간에 매핑하여 시각화

보충 자료인 위 그림에서는 이러한 고품질 업샘플링 성능이 higher PCA 성분에서도 유지됨을 보여줌

또한 위 그림에서는 FeatUp이 작은 객체 검색 성능 향상에도 도움이 된다는 것을 보여줌
위 실험 결과들을 통해 FeatUp 모델의 탁월한 업샘플링 성능을 정성적으로 입증

Robustness across vision backbones

위 그림에서는 FeatUp 모델이 다양한 최신 비전 backbone들에 적용될 수 있음을 보여줌
ResNet-50과 같이 큰 receptive field로 인해 객체 위치를 정확히 파악하지 못하는 backbone에서도, FeatUp은 합리적으로 feature를 올바른 객체에 연관시킬 수 있음
이를 통해 FeatUp이 다양한 vision 모델 backbone에 적용 가능하며, feature 업샘플링 측면에서 효과적이라는 점을 보여줌

4.2. TRANSFER LEARNING FOR SEMANTIC SEGMENTATION AND DEPTH ESTIMATION

두 가지 FeatUp 변형 모두가 모든 실험에서 모든 baseline을 능가했으며, 이를 통해 FeatUp이 기존 feature를 효과적으로 대체할 수 있음을 보여줌

정성적으로도 위 그림에서 볼 수 있듯이, FeatUp은 두 작업 모두에서 더 깨끗하고 일관된 예측 결과를 보여줌

4.3. CLASS ACTIVATION MAP QUALITY

기존 Class Activation Map (CAM) 해석 방법은 깊은 feature map의 저해상도로 인해 한계가 있어 작은 객체를 해결하지 못함
FeatUp feature를 기존 CAM 분석에 적용하면 보다 강력하고 정확한 설명을 얻을 수 있음
요약하자면, FeatUp이 모델 설명력 향상에 도움을 줄 수 있음

5. CONCLUSION

FeatUp은 multiview consistency을 활용하여 심층 feature를 업샘플링하는 새로운 접근법
심층 모델은 고품질 feature을 학습하지만 공간 해상도가 매우 낮다는 문제를 해결
JBU 기반 업샘플러는 강력한 공간 사전 지식을 활용하여 Joint Bilateral Upsampling의 새로운 일반화를 통해 신속한 feedfoward network로 손실된 공간 정보를 정확히 복원
Implicit FeatUp은 임의의 해상도에서 고품질 feature를 학습할 수 있음
두 가지 변형 모두 linear probe transfer learning, 모델 해석성, end-to-end 의미 분할 등 다양한 측면에서 광범위한 baseline을 크게 능가
즉, FeatUp은 심층 모델의 feature 업샘플링 문제를 효과적으로 해결하는 혁신적인 접근법이라고 요약할 수 있음

bluein

AI Research Engineer

이전 포스트

[논문 정리] ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

다음 포스트

[논문 정리] FEATUP: A Model-Agnostic Framework for Features at Any Resolution

1. INTRODUCTION

3. METHOD

3.1 CHOOSING A DOWNSAMPLER

3.2 CHOOSING AN UPSAMPLER

Joint Bilateral Upsampler

Implicit

4. EXPERIMENTS

4.1. QUALITATIVE COMPARISONS

Visualizing upsampling methods

Robustness across vision backbones

4.2. TRANSFER LEARNING FOR SEMANTIC SEGMENTATION AND DEPTH ESTIMATION

4.3. CLASS ACTIVATION MAP QUALITY

5. CONCLUSION

[논문 정리] ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions

[논문 정리] DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs

0개의 댓글

관련 채용 정보