기존에 다양한 멀티모달들이 나왔지만 6개의 모달리티를 엮을 수 있다는 논문이 있다는 소식에 궁금해서 논문을 읽게 됐다.
논문을 읽기전 논문에 대해 내가 궁금한 점을 적어두고 이를 해결하면서 읽어가면 잘 이해되는거같아 가장 위에 적어두고 논문을 다 읽고나서 이에대한 해답을 같이 알아보도록 하겠다.
1. 꼭 6개의 모달리티를 전부 사용해야될까?
(6개 모달리티: image, video, audio, depth, IMU, thermal data)
2. CLIP과의 공통점과 차이점은 무엇일까?
3. 이미지를 중심으로 나누는 이유?
이전까지 다양한 멀티모달 모델들이 나왔다. 하지만 6개의 모달들을 묶는 모델은 나오지 않았다. 또한 이 모델의 핵심은 꼭 6개의 모달의 정보가 모두 있지 않아도된다. 몇개의 정보만을 이용해서 image-retrival 혹은 zero-shot classification이 가능하다.
image-retrival: 주어진 쿼리 이미지에 대해 유사한 이미지를 검색하는 것
zero-shot: 새로운 클래스에 대한 분류를 위해 보조 정보를 사용
이후 linear projection을 수행해서 d차원 임베딩 수행. 이는 정규화 되고 InfoNCE loss를 사용가능하게한다.
이미지와 텍스트를 주된 학습 데이터로 사용하지만, 학습된 표현을 오디오, 비디오 등 다른 모달리티로 학장할 수 있는 능력을 갖추고 있다.
<다른 모달리티로의 확장 순서>
1. single joint embedding space를 구축. 이미지와 텍스트를 동일한 잠재 공간에 투영하여 각 모달리티의 특성을 유사한 방식으로 표현
2. 이미지와 텍스트로 학습된 임베딩 공간을 다른 모달리티로 확장. 다른 모달리티의 데이터를 모델에 입력하고, 해당 데이터의 특성을 이미지와 텍스트로 학습된 임베딩 공간에 매핑
3. 이후 전이학습과 파인튜닝 기법을 사용
하나의 일관된 방법으로 표현하기 위한 것으로 InfoNCE Loss함수를 사용해서 학습한다.
InfoNCE Loss




기존 zero-shot learning에서는 보조 정보가 필요했다면 imagebind 논문에서 말하는 emergent zero-shot learning에서는 특정한 작업에 대해 직접적으로 학습하지 않았음에도 불구하고, 모델이 그 작업을 수행할 수 있는 능력
예를들어 (이미지, 텍스트)와 (이미지, 오디오) 같은 이미지와 짝을 이루는 데이터만을 사용하여 학습한다. 즉 오디오를 직접 텍스트와 짝지어 학습시키지 않음에도 불구하고, 텍스트 프롬프트를 사용하여 오디오를 분류하는 능력을 갖추게 된다.

달리에서 텍스트를 이용해서 이미지를 생성하는 것을 오디오 데이터를 사용하여 이미지를 생성하는 새로운 방식을 이용했다.

audio retrieval과 classification 비교
imagebind의 emergent zero-shot performance는 기존 Audio CLIP 혹은 AVFIC보다 훌륭하다

text to audio and video retrieval 평가 비교
audio만 이용해도 좋은 성능을 나타내고 audio와 video를 둘다 이용하면 더 좋은 성능을 나타내고있다.

image + audio 정보를 이용해서 Image retrival
첫번째 이미지를 예로 들어서 설명하면 과일 사진에 새가 지저귀는 오디오를 넣으면 과일과 새가 보이는 이미지를 찾는다.
다시 처음 생각했던 3가지의 질문에 답을 해보겠다.
1.꼭 6개의 모달리티를 전부 사용해야될까? -> 아니다
2.CLIP과의 공통점과 차이점은 무엇일까?
->ImageBind는 CLIP의 원리를 기반으로 하되, 이를 더 넓은 범위의 데이터와 작업에 적용할 수 있도록 발전시킨 모델이라고 볼 수 있다.
3.이미지를 중심으로 나누는 이유는? -> 논문에 정확히 나오지 않았지만 데이터의 수가 많고, 다양한 작업에 적용 가능한 범용적인 모달리티이기 때문이다.
본 논문에서는 기존의 image-text에 국한되지 않고 다양한 모달리티를 이용하는 모델이다. 직접적으로 학습하지 않아도 사용가능한 emergent zero-shot learning으로 정말 다양한 분야에 적용이 가능할거같다. 앞으로 본 논문에 어떤점을 수정할지에 대해서 더 깊이 연구해보면서 추가적인 자료를 올리도록 하겠다.