Vision-Language[multimodal]

이시우·2022년 11월 23일

Multimodal task들에 대해서 보다보면 인류 즉 인간이 어떠한 물체라는 것을 이해하기 위해서 시각 미각 촉각 문자까지 여러 개념을 통합해서 인식을 합니다. 그래서 처음 인식하고 나서는 그거에 대한 일부분만 봐도 이게 어떤 촉각이었고 미각은 어땠고 어떠한 설명이 가능한지에 대한 부가적인 정보들을 손쉽게 인식할 수 있다.

각 modality에 적합한 DL 구조를 사용해서 특정 벡터를 추출하는 과정으로

모달을 통합하는 방식에서는 feature concat, ensemble classifier 방법 존재하고

concat을 해서 transformer 계열까지 적용하는 방향성을 발전시키고 있는 것으로 보여진다.

multimodal representation

모탈리티의 정보를 결합해 생성하는 represenation은 어떻게 생성이 될까?

⇒ Heterogeneity gap 문제라고 합니다(각 모달리티 표현이 상이하다는 문제를 의미합니다. 이미지 사진과 글이 pair한 데이터가 있다고 할때, 이미지 사진에 대한 것은 image space, 글에 대한 것은 text space에 각각 매핑을 시켰을때 쌍을 이루는 데이터가 상이한 representation을 가지는 것을 의미합니다)

✅ 서로 다른 모달리티의 heterogeneity gap을 줄여 ‘common subspace’에 representation vector를 mapping해야합니다. ⇒ gap을 줄일 수 있는 방법은 무엇이 있을까?

joint presentation ⇒ concat / additive approach / multiplicative approach
coordinated representation ⇒ cross-modal ranking / 유클리드 거리 계산법
encoder-decoder ⇒ image 모달리티를 text 모달리티의 representation space에 매핑하는 방식이다. encoder : source 모달리티 → latent vector / decode : latent vector → target 모달리티 [VG, VC…]

multimodal에 대한 기업 및 연구자들의 관심

구글은 텍스트-이미지 Diffusion Model인 Imagen[VG]을 공개했고, 카카오브레인의 minDALL-E[VG]는 DALL-E와 비슷하고, LG AI 연구원은 텍스트와 이미지 간 양방향 사고가 가능한 엑사원을 진행하고 있고, intel과 카네기멜론 대학이 만든 WebQA[VQA]는 웹상의 데이터와 이미지를 학습한 모델을 이용해서 사용자 질문에 대한 답을 찾아주는 서비스입니다.

https://www.etnews.com/20220428000098

멀티모달을 연구를 하게 된다면 추후 부작용

인간의 의사 결정에 도움을 줄 수는 있지만 개인정보에 대한 법률 개선
AI에 의해서 만들어진 창작물로 인한 문제가 발생했을 때 누가 책임을 질 것인지 - 모델을 만든 연구자, 모델을 쓴 기업등,,

이 부분에 대해서는 아마도 테슬라와 같은 자율주행 회사와 같은 문제로 넘어가지않을까싶다. 단계적인 접근이 필요할 거 같고, 그에 대한 이해도 또한 필요할 거 같다.

이시우

가까운 듯 먼 AI를 이해하는 과정

이전 포스트

CNN과 Transformer의 다른점

다음 포스트

Vision-Language[multimodal]

multimodal representation

multimodal에 대한 기업 및 연구자들의 관심

멀티모달을 연구를 하게 된다면 추후 부작용

CNN과 Transformer의 다른점

월드컵 기간에 바라보는 AI 심판?

0개의 댓글

관련 채용 정보