BAM-DETR (ECCV, 2024)

정준한·2025년 4월 15일

MR 논문

목록 보기
4/13

얻을만한 아이디어

  • quality-based scoring을 써보면 좋을 것 같다.
  • center 말고 start, end 예측하도록 모델링하는 것도 괜찮은 것 같다.

Contribution

  • boundary oriented 방식으로 디코더 구성

특이점

  • 인코더는 그냥 QD-DETR과 동일

전체 아키텍쳐

  • Dual-pathway decoding process를 통해 Anchor queries와 Boundary queries를 따로 두어 각각 따로 update

  • CplRM×DCsl,CelRM×D\mathbf{C}_p^l \in \mathbb{R}^{M \times D} \quad \mathbf{C}_s^l, \mathbf{C}_e^l \in \mathbb{R}^{M \times D} (각각 anchor, boundary queries)

  • Al=[pl;dsl;del]RM×3\mathbf{A}^l=\left[\mathbf{p}^l ; \mathbf{d}_s^l ; \mathbf{d}_e^l\right] \in \mathbb{R}^{M \times 3}

  • Anchor updating pathway에서 Cpl\mathbf{C}_p^lA^l=[p(l+1);dsl;del]\hat{\mathbf{A}}^l=\left[\mathbf{p}^{(l+1)} ; \mathbf{d}_s^l ; \mathbf{d}_e^l\right] 업데이트

  • Boundary updating pathway

    1D Convolution으로 Locality 정보가 담긴 벡터를 concat해서 V^s=[V^V^s]RNv×2D\hat{\mathcal{V}}_s^{\prime}=\left[\hat{\mathcal{V}} \| \hat{\mathcal{V}}_s\right] \in \mathbb{R}^{N_v \times 2 D} 만듬
    이 때, concat하기 전의 벡터를 가지고 loss 계산함.
    g^s=mean(σ(V^s))RNv\hat{g}^s=\operatorname{mean}\left(\sigma\left(\hat{\mathcal{V}}_s\right)\right) \in \mathbb{R}^{N_v}
    Lregul s=1Nvi=1Nv(gislog(g^is)+(1gis)log(1g^is))\mathcal{L}_{\text {regul }}^s=-\frac{1}{N_v} \sum_{i=1}^{N_v}\left(g_i^s \log \left(\hat{g}_i^s\right)+\left(1-g_i^s\right) \log \left(1-\hat{g}_i^s\right)\right)
    이 때, gisg_i^s는 start 주변의 clip들을 1로 설정 (moment 길이의 1/10 반경)
    Lregul =Lregul s+Lregul e\mathcal{L}_{\text {regul }}=\mathcal{L}_{\text {regul }}^s+\mathcal{L}_{\text {regul }}^e 로 start, end에 대해서 각각 구함.

    start 부근의 국소적인 부분만 참조하기 위해서 deformable attention 사용
    offset을 K개 예측하고, 거기에 해당되는 것을 V^s\hat{\mathcal{V}}_s^{\prime}에서 뽑아오고 계산한 가중치로 가중합해서 구한다.

  • confidence score 대신 quality-based score를 사용한다. (IoU 예측)
    q=σ(MLP([CpCsCe]))RM\mathbf{q}=\sigma\left(\operatorname{MLP}\left(\left[\mathbf{C}_p\left\|\mathbf{C}_s\right\| \mathbf{C}_e\right]\right)\right) \in \mathbb{R}^M
    Lqual =Mqmmaxn(φ^mφnφ^mφn)\mathcal{L}_{\text {qual }}=\sum^M \left\lvert\, q_m-\max _{\forall n}\left(\frac{\left|\hat{\varphi}_m \cap \varphi_n\right|}{\left|\hat{\varphi}_m \cup \varphi_n\right|}\right)\right.

Ablations

  • 단순히 Start, End 모델링만 해도 성능이 좀 오르고, quality-based scoring했을 때 성능이 팍 오르는 것이 흥미롭다.
  • GT를 일정 너비만큼 계속 늘려서 하나의 prediction이라도 GT에 포함되면 hit (Boundary Alignment 측정)
  • Quality-based scoring의 중요성

profile
논문 읽은거 자꾸 까먹어서 기록

0개의 댓글