-
Dual-pathway decoding process를 통해 Anchor queries와 Boundary queries를 따로 두어 각각 따로 update
-
Cpl∈RM×DCsl,Cel∈RM×D (각각 anchor, boundary queries)
-
Al=[pl;dsl;del]∈RM×3
-
Anchor updating pathway에서 Cpl과 A^l=[p(l+1);dsl;del] 업데이트
-
Boundary updating pathway

1D Convolution으로 Locality 정보가 담긴 벡터를 concat해서 V^s′=[V^∥V^s]∈RNv×2D 만듬
이 때, concat하기 전의 벡터를 가지고 loss 계산함.
g^s=mean(σ(V^s))∈RNv
Lregul s=−Nv1∑i=1Nv(gislog(g^is)+(1−gis)log(1−g^is))
이 때, gis는 start 주변의 clip들을 1로 설정 (moment 길이의 1/10 반경)
Lregul =Lregul s+Lregul e 로 start, end에 대해서 각각 구함.
start 부근의 국소적인 부분만 참조하기 위해서 deformable attention 사용
offset을 K개 예측하고, 거기에 해당되는 것을 V^s′에서 뽑아오고 계산한 가중치로 가중합해서 구한다.
-
confidence score 대신 quality-based score를 사용한다. (IoU 예측)
q=σ(MLP([Cp∥Cs∥Ce]))∈RM
Lqual =∑M∣∣∣∣qm−max∀n(∣φ^m∪φn∣∣φ^m∩φn∣)