BAM-DETR (ECCV, 2024)

정준한·2025년 4월 15일

MR 논문

목록 보기

4/13

얻을만한 아이디어

quality-based scoring을 써보면 좋을 것 같다.
center 말고 start, end 예측하도록 모델링하는 것도 괜찮은 것 같다.

Contribution

boundary oriented 방식으로 디코더 구성

특이점

인코더는 그냥 QD-DETR과 동일

전체 아키텍쳐

Dual-pathway decoding process를 통해 Anchor queries와 Boundary queries를 따로 두어 각각 따로 update
$\mathbf{C}_p^l \in \mathbb{R}^{M \times D} \quad \mathbf{C}_s^l, \mathbf{C}_e^l \in \mathbb{R}^{M \times D}$ (각각 anchor, boundary queries)
$\mathbf{A}^l=\left[\mathbf{p}^l ; \mathbf{d}_s^l ; \mathbf{d}_e^l\right] \in \mathbb{R}^{M \times 3}$
Anchor updating pathway에서 $\mathbf{C}_p^l$ 과 $\hat{\mathbf{A}}^l=\left[\mathbf{p}^{(l+1)} ; \mathbf{d}_s^l ; \mathbf{d}_e^l\right]$ 업데이트
Boundary updating pathway

1D Convolution으로 Locality 정보가 담긴 벡터를 concat해서 $\hat{\mathcal{V}}_s^{\prime}=\left[\hat{\mathcal{V}} \| \hat{\mathcal{V}}_s\right] \in \mathbb{R}^{N_v \times 2 D}$ 만듬
이 때, concat하기 전의 벡터를 가지고 loss 계산함.
$\hat{g}^s=\operatorname{mean}\left(\sigma\left(\hat{\mathcal{V}}_s\right)\right) \in \mathbb{R}^{N_v}$
$\mathcal{L}_{\text {regul }}^s=-\frac{1}{N_v} \sum_{i=1}^{N_v}\left(g_i^s \log \left(\hat{g}_i^s\right)+\left(1-g_i^s\right) \log \left(1-\hat{g}_i^s\right)\right)$
이 때, $g_i^s$ 는 start 주변의 clip들을 1로 설정 (moment 길이의 1/10 반경)
$\mathcal{L}_{\text {regul }}=\mathcal{L}_{\text {regul }}^s+\mathcal{L}_{\text {regul }}^e$ 로 start, end에 대해서 각각 구함.

start 부근의 국소적인 부분만 참조하기 위해서 deformable attention 사용
offset을 K개 예측하고, 거기에 해당되는 것을 $\hat{\mathcal{V}}_s^{\prime}$ 에서 뽑아오고 계산한 가중치로 가중합해서 구한다.
confidence score 대신 quality-based score를 사용한다. (IoU 예측)
$\mathbf{q}=\sigma\left(\operatorname{MLP}\left(\left[\mathbf{C}_p\left\|\mathbf{C}_s\right\| \mathbf{C}_e\right]\right)\right) \in \mathbb{R}^M$
$\mathcal{L}_{\text {qual }}=\sum^M \left\lvert\, q_m-\max _{\forall n}\left(\frac{\left|\hat{\varphi}_m \cap \varphi_n\right|}{\left|\hat{\varphi}_m \cup \varphi_n\right|}\right)\right.$