
https://arxiv.org/abs/2404.01945
Event-assisted Low-Light Video Object Segmentation (Li et al., CVPR 2024)
1학기 때 졸프 땜에 본 논문인데, 복습 차원에서 다시 한번 정리해 봄.
Video Object Segmentation (VOS) : 연속된 영상 프레임에서 관심 객체를 segmentation 하는 기술.
VOS는 두가지로 나눌 수 있는데,
이 논문은 Semi-supervised VOS 를 따름.
Event Camera는 기존 RGB frame Camera와 달리, 밝기 변화가 감지될 때만 픽셀이 이벤트를 발생시키는 원리
따라서 저조도 환경에서도 edge, motion 등등을 잘 포착할 수 있음.
(1) RGB + Event 가 각 프레임별로 매칭되고, 각 프레임별 annotation까지 포함된 paired dataset 필요
(2) 프레임과 이벤트의 Feature Fusion이 까다로움
-> 단순한 concat, sum 같은 방법으로는 오히려 노이즈/정보손실 발생
(3) 저조도에서의 Memory 매칭 (=현재 프레임과 과거 프레임의 similarity 계산)이 불안정
본 연구는 저조도 환경에서의 VOS 문제를 해결하기 위해,
Event Camera의 장점을 활용한 새로운 Multimodal Framework를 제안함.
저조도 환경에서 RGB 프레임의 시각 정보 손실을 Event data로 보완하고, Adaptive Cross-Modal Fusion(ACMF) 과 Event-Guided Memory Matching(EGMM) 을 통해 두 모달리티의 상호보완적 특징을 통합함으로써,
기존 방법 대비 높은 Segmentation 정확도를 달성함.

(1) Ft(img), Ft(evt)를 합쳐 combined feature set을 만들고, 여기에 합성곱을 통과시켜 coupled information를 추출
(2) Channel Attnetion(CA), Spatial Attention(SA)을 Event feature에 적용하여
edge information을 추출 (= 이벤트 특징에 attention하도록 가중하는 단계)
(3) 두 feature 각각 합성곱으로 정제하고 element-wise multiplication, sum으로 최종 fusion feature를 출력
-> 이벤트 feature로 edge/motion을 보강하고, RGB의 texture는 살리고, 저조도에서의 noise는 제거함.
EGMM은 아직 공부 안했음.
Loss : BCE + Soft-Jaccard (α = β = 0.5)


합성 데이터셋 (LLE-DAVIS) 과 실세계 데이터셋 (LLE-VOS) 모두에서
SOTA 대비 6–8 % 성능 향상 (J&F mean 기준)