✨[Daily report] 24-06-13

kiteday·2024년 6월 13일
0

Daily report

목록 보기
43/60
  • Vript: A Video Is Worth Thousands of Words
    video에 대해서 text description을 작성해주는 모델이다. LLaVA와 같은 일을 하는 모델이라고 생각하면 된다.
  • An Image is Worth 32 Tokens for Reconstruction and Generation
    VQGAN이 256개의 토큰을 가지고 있었다면 TiTok은 32개만으로 충분하다고 한다. 픽셀기반 토큰이 아니라 semantic latent를 토큰화하는 아이디어라고한다. 저자들은 틱톡회사인 Bytedance.
  • Simple and Effective Masked Diffusion Language Models
    하다하다 디퓨전으로 텍스트를 만드네
profile
공부

0개의 댓글