[Daily report] 24-08-05

kiteday·2024년 8월 5일

목록 보기

50/69

SAM 2: Segment Anything in Images and Videos
OpenAI의 그 SAM이 2가 나왔다. 기존버전에 비해 비디오에서는 3배 정확도, 이미지는 6배 속도 향상이 있다고 한다. 이제 완전히 object detect/seg. 분야는 SAM이 평정하는 느낌이다.
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models
CFG가 매우 중요한 키워드다보니 이를 이용해 few-step만으로 이미지 생성하는 논문들도 자주 보인다. 확실히 style transfer는 few step이 맞는 듯. 코드, bibtex 둘다 아직 미공개.
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
디즈니에서 나온 image2video 논문. 모델에게 모션(이미지)을 힌트로 주는 꼴이다. 역시pretrain을 이용한 방식으로 굉장히 GAN 시절에 이미지를 생성하던 방식과 흡사한 loss 이다.
The Llama 3 Herd of Models
LLaMa3... 말뭐.
이전 405B 모델의 input-output 안정성을 높였다는 것과 + image, video, and speech 에 대한 capabilities를 높인 것. 이 두가지를 메인 contribution으로 잡은 듯 하다. 구글에서 쓴 페이퍼답게 리포트가 92페이지나 된다. OpenAI도 Google도 계속 이렇게 쓰면.. 나는 오똑하
Fine-gained Zero-shot Video Sampling
zero-shot으로 비디오를 생성하는 모델이라고한다. 자세한 건 코드나 구조를 뜯어봐야 할 듯한데 코드는 미공개. ICLR 2024에 올라간 paper인 듯

Daily report