Audio-visual segmentation(AVS)는 주어진 비디오에서 소리 나는 물체의 위치를 찾아내고 분할 하는 것을 목표로 함
하지만 대부분의 방법들은 여러 상황에 세밀한 상관 관계를 동적으로 잘 처리하지 못한다.
AVSegFormer는
로 구성되어 있습니다.
=> 이 두 구성요소를 결합하면 더 견고한 양방향 멀티모달 표현이 제공되어 다양한 시나리오에서 분할 성능이 향상됨
audio-visual understanding task에서는 두가지 접근법이 있다.
AVSBench
=> 이 문제를 해결하기 위해 나온게 AVSegFormer
AVSegFormer
4가지 구성요소로 이루어져 있음
(1. 마스크 특징을 생성하는 transformer 인코더 / 2. 시각 기반 마스크 특징을 생성하는 audio-visual mixer / 3. 희소한 오디오 기반 쿼리를 초기화하는 쿼리 생성기 / 4. 시각적 특징에서 희소 객체를 분리하는 cross-modal transformer decoder)
auxiliary mixing loss- audio-visual mixer가 생성한 정보를 더 잘 활용하기 위해 손실함수를 변형함
cross-modal transformer decoder- 기존과 다르게 소리 정보를 바탕으로 희소한 쿼리를 만들어내는 걸 목표로 함
이 쿼리들은 특징맵과 합쳐져서 최종적으로 소리와 물체를 분할하는데 사용됨
<과정>
1. 특별한 손실 함수를 추가해서 복잡한 소리 안에서도 중요한 정보를 잘 찾을 수 있도록 모델을 훈련시키고,
2. 소리마다 맞는 물체를 찾기 위해 쿼리 (질문)을 던지고, 그에 맞는 정보를 영상에서 찾아서
3. 소리와 영상 정보를 합쳐서 각 물체를 정확히 분할하는 과정을 거침
쿼리 생성기: 오디오 쿼리를 초기화, transformer encoder가 특징 추출=> transformer decoder에 입력으로 제공해서 희소 객체 분리
mixer: 관련된 특징 증폭, 관련 없는 특징 억제, 손실이 강화된 특징을 잡음
visual encoder, audio encoder는 이전 방법과 도일하게 특징 추출 과정 거침
희소한 오디오 쿼리를 생성하도록 설계, 모델이 청각 정보를 이해할수 있게
오디오를 key와 value로 사용해서 쿼리 생성기에 입력하고 오디오 쿼리를 얻음
오디오 쿼리와 학습 가능한 쿼리를 결합하여 transformer 디코더의 입력으로 사용함
마스크 특징을 만드는 역할
기존의 방식은 눈에 띄지 않는 소리의 객체를 식별하는 모델의 능력을 저하시킴
=> mixer는 오디오-비주얼 cross attention을 통해 가중치 𝜔를 학습하고, 관련 있는 채널을 강조하는 방식으로 적용
잠재적인 희소 쿼리 생성, 시각적 특징을 해당 쿼리와 최적으로 매칭하도록 설계
마스크 특징 통합: 모델이 생성한 마스크 특징
𝐹^ mask을 하나의 선형 레이어를 통과시켜 통합한 뒤, 이진 마스크를 예측함
gt에서 객체가 있는 부분만을 추출하여 새로운 이진 레이블을 만듬
Dice 손실 계산: 예측된 이진 마스크와 실제 이진 마스크 사이의 차이를 측정하기 위해 Dice 손실을 계산
=> dog는 점점 진해지고 소리 안나는 책상이나 이런건 더 연해짐
특색이 다른 데이터셋을 구축
소리에 대한 관심, audio source에 대한 특징을 더 공부
왜 분할이 필요한지 localization을 통해 바운딩 박스를 만들고 segmentation을 하면 two stage
박스는 모양이 다양할때 빈공간이 많음, 다른 것도 많이 들어옴 error를 만듦 써먹기가 어려움, 부정확한 정보를 가지고 학습한거
소리가 같이 들어올때 의미
semantic segmentation
모션을 보는게 좋을까 event 소리가 주는 정보를 쫌 써먹자 impact에 대해서 인지
visual grounding을 통해서 사람이 기타를 쳤다 이거를 알면 graph를 써서 주어 서술어 목적어
소리가 진짜 나야지 사람과 object와의 관계를 보고 impact
표현하는 부분을 보기 관계에 대해서 생각ㅇ하자
event 정의하는 거 -> 시간으로 하는지 , 변화하는 순간인지
scene generalization하는거
사이사이 impact가 있어서 기타가 소리를 내는구나가 되게
눈은 속지만 빠르게 지나가는건 못 잡음
그치만 소리는 잡을수 있따
소리가 어디서 나오는지 타겟하자
context를 이용하자