최근 self-training이 target domain에 대한 confident prediction으로부터 생성된 pseudo label을 가지고 network를 재훈련하는 방식으로 domain adaptation을 boost해옴
여전히 Inherent Challenge를 남기고 있는데, Class unbalance로 self-training에서도 major class를 강조하고 rare class or small object에 대한 성능을 희생시키는 undesired bias를 초래함
Proposal
Active Learning for domain adaptive semantic segmentation
Region Impurity and Prediction Uncertainty (RIPU)
1) model prediction으로부터 target pseudo label을 생성하고, k-square-neighbors algorithm으로 모든 가능한 영역을 excavate함
2) 각 영역 (region)의 region impurity에 따라 각 class에 속하는 internal pixel의 percentage로 계산한 entropy을 취함
3) prediction uncertainty의 평균값과 region impurity를 결합하여 pixel prediction의 entropy를 구하고, 이를 통해 diversity와 uncertainty를 jointly하게 포착하는 novel label을 acquisition
2. Related Work
Domain Adaptation (DA)
well-labeled source domain의 knowledge를 unlabeled target domain에서 prediction이 가능하도록 함
처음에는 domain gap을 mitigate하는 방식으로 source domain과 target domain사이의 discrepancy를 최소화하는 관점으로 연구가 진행되었음
Semantic Segmentation에서는 대부분이 3가지 방식에서의 adversarial learning을 employ했었음
appearance transfer
feature matching
output space alignment
Self-training은 target domain에 대한 pseudo label로 모델을 훈련시키는 방식으로 competitive alternative로써 발전해왔음
pseudo label이 noisy하고 good initialization에 크게 영향을 받는데, 이를 해결하기 위해
weak label을 사용하거나 dense depth information을 이용해 domain adaptation을 수행함
또한, annotation을 최소화하여 noise를 방지하는 strategy인 Active Learning 방식
Active Learning (AL)
모델 성능을 최대화하면서 labeling effort를 최소화하려고 함
보통 uncertainty sampling과 representative sampling을 포함함
Segmentation과 같은 dense prediction task에서의 AL 연구가 별로 없고, 더욱이 실제로는 많이 발생하는 domain adaptation에서 annotation transfer를 고려한 논문은 더 없다.
Active Domain Adaptation (ADA)
지금까지는 image classification에 주로 집중적으로 연구가 수행되어왔고, 최근들어 Ning et al.과 Shin et al.이 처음으로 semantic segmentation에 적용했음
Ning et al.은 image의 subset을 고르지만 entire image를 annotation해야하고 Shin et al.은 adaptive pixel selector로 point-based annotation을 제시하지만, 이는 이미지의 contextual structure와 영역 내에 pixel spatial contiguity를 무시하게 됨
이 연구에서는 spatial adjacency 특성을 무시하면 안되고 region-based selection strategy이 essential하다고 주장하고 있으며
이미지의 공간적 일관성 (spatial coherency)을 탐구하고 diverse하면서도 uncertain한 image region의 선별하여 높은 정보 content와 낮은 labeling cost를 약속함
3. Approach
3.1. Preliminaries and Motivation
더 적은 annotation으로 target domain에서 좋은 성능을 낼 수 있도록 function h: I -> Y (Segmentation Network parameterized by Θ)를 학습하는 게 목표
pseudo label로 knowledge를 transfer하는 self-training을 할건데, pseudo label이 noisy하다고 보고 theshold 이상을 넘긴 high confident pixel만 retraining에 사용함
이 방법은 target domain에 훈련되는 모델이 스스로 확신하는 pixel들에 boostrap되는 꼴
이를 address하기 위해 image에서 informative한 적은 영역을 골라 domain adaptation을 assist하는 RIPU의 active learning approach를 제안함
3.2. Region Generation
(2k+1, 2k+1) 크기의 정사각형 region에 대한 center로 한 pixel의 k-square-neighbors를 수행함
3.3. Region Impurity and Prediction Uncertainty
Region-based Annotating (RA)와 Pixel-based Annotating (PA)의 두 가지 labeling 메카니즘을 사용함
RA면 k-sqaure-neighbors해서 중심 point (u, v)를 받고, PA면 (i, j)를 그대로 받고
target active label Yt에 없는 (u, v) 중에서 A(It;Θn)(u,v)를 최대화하는 (u, v)를 얻는다.
Yt(i,j)는 각 pixel에 대해서 최대확률값을 가지는 class로 argmax한 Target pseudo label임
target domain image It에서 Yt(u,v)=c인 (u, v)를 추출해 각 class에 해당하는 region을 나눔
Region Impurity
각 pixel (i, j)에 대한 Region Impurity는 (i, j)를 center로 하는 (2k+1, 2k+1) 크기의 square region N_k 중에 특정 class c에 속하는 region의 비율을 P로 뒀을 때, 모든 class C에 대한 -PlogP의 SUM인 entropy의 형태로 구함
Prediction Uncertainty
각 pixel (i, j)에 대한 uncertainty는 (i, j)가 center인 (2k+1, 2k+1) 크기의 square region N_k 모든 pixel (u, v)에 대하여 predictive entropy의 합으로 계산됨
Acquisition Function
Region Impurity와 Prediction Uncertainty를 element-wise matrix matmul하여 acquisition function을 구함
N_k를 통해 주변 pixel을 고려하게 되면서 spatial adjacency를 고려하여 diverse하고 uncertain한 영역을 acquisition하는 기능을 하게 됨
3.4. Training Objectives
Standard Supervised Loss
Yt: target active label
Consistency Regularization Loss
pixel과 그 주변 pixel간의 prediction의 일관성을 강화시키는 Loss
Negative Learning Loss
noisy한 pseudo label에 negative pseudo label을 적용함, τ=0.05 보다 작으면 1, 크면 0으로 해서 label을 사용해 CE loss에 적용하면 이와 같은 식이 나옴
Total Loss
α1=0.1,α2=1.0
Algorithm
CE loss, Eq. (8) 로 source data에 사전 훈련된 network Θ0가 있고
Iteration에 따라 Total Loss Eq. (12)로 network를 훈련하고
Selection round 주기가 되면 target image It에 대한 acquisition score를 계산하고 Acquisition이 최대화하는 Eq. (2)에 대해서 regions(RA)/pixels(PA)을 sampling해줌
argmax해서 가장 큰 값의 index를 받아 target active label Yt를 생성 (RA는 전체 이미지에서 2.2%, 5%를 budget으로 뽑고 PA는 40 pixel 정도 뽑았음)