[부스트캠프 AI tech CV] week09 (2022.03.17) Multi-modal Learning

redgreen·2022년 3월 17일

부스트캠프 AI tech 3기

목록 보기

27/40

1.1 joint embedding

이미지로 가까운 태그를 찾거나, 태그로 가까운 이미지를 찾을 수 있다.

유사한 이미지와 텍스트의 embedding거리를 가깝게하고, 유사하지 않은 embedding들은 멀어지게하는 방법

학습이 잘되면 이미지 임베딩에서 텍스트 임베딩을 빼서 새로운 이미지를 찾을 수 있음

레시피와 음식 사진을 이용한 joint embedding 모델

cosine similarity loss와 semantic regularization loss를 사용할 수 있음

이미지가 주어지면 그에 맞는 caption을 생성

텍스트가 주어지면 그에 맞는 이미지를 생성(generative model)

show and tell, show, attend, and tell 등의 모델이 있음

이미지와 문제가 들어오면 답을 추론하는 모델

2. image & audio

SoundNet

Speech2Face

Image-to-speech synthesis

Sound source localization

Looking to listen at the cocktail party(특정인의 발화만 추출)

Lip movements generation

3. 과제

colab

redgreen

인공지능 꿈나무

이전 포스트

[부스트캠프 AI tech CV] week09 (2022.03.16) Conditional Generative Model

다음 포스트

[부스트캠프 AI tech CV] week09 (2022.03.17) Multi-modal Learning

부스트캠프 AI tech 3기

1.1 joint embedding

2. image & audio

3. 과제

[부스트캠프 AI tech CV] week09 (2022.03.16) Conditional Generative Model

[부스트캠프 AI tech CV] week09 (2022.03.18) 3D Understanding

0개의 댓글

[부스트캠프 AI tech CV] week09 (2022.03.17) Multi-modal Learning

부스트캠프 AI tech 3기

1. image & text modal

1.1 joint embedding

1.2 Cross modal translation

1.3 Cross modal reasoning

2. image & audio

3. 과제

[부스트캠프 AI tech CV] week09 (2022.03.16) Conditional Generative Model

[부스트캠프 AI tech CV] week09 (2022.03.18) 3D Understanding

0개의 댓글