[Daily report] 24-06-21

kiteday·2024년 6월 21일
0

Daily report

목록 보기
45/60
  • Autoregressive Image Generation without Vector Quantization
    autoregressive 방식의 image generation은 대게 vector-quantized tokens가 필요한데 해당 paper는 각 token별로 diffusion loss function을 적용하는 방법으로 이를 극복했다. MIT, 구글 딥마인드, Tsinghua에서 나온 논문.
  • Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%
    VQGAN에서 codebook의 크기는 줄이고 대신 활용도를 높여 학습시키는 방법! 합리적으로 느껴진다. 이를 위해 pre-training vision encoder로 추출한 100,000 features로 codebook을 초기화 한다. MS research Asia와 Pecking에서 한 연구.
  • STAR: Scale-wise Text-to-image generation via Auto-Regressive representations
    VAR 스타일의 autoregresive 모델이 나왔다..! VAR이 closed format으로 생성했다면 STAR는 open category로 접근한다. 솔직히 결과 이미지 상으로 SDXL보다 잘하는 지 확신이 들지는 않는다. 실제 CLIP-score도 0.2865와 0.2822로 유의미할 정도의 차이라고 보기 어렵다. technical report.
  • LLaNA: Large Language and NeRF Assistant
    MLLM의 시대에서 LLaMA를 넘어서.. LLaNA가 나오다.. 생각해보면 llm은 어떤 대상에 대해 특징 묘사를 잘 생성하고, 요새는 이런 텍스트를 기반으로 NeRF를 이용해 2D, 3D를 잘 만드니까 충분히 나올 수 있는 모델인 것 같다. 다만 실제 잘 되는가와 활용도의 측면에선 생각을 해봐야 할 것 같다.
  • MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
    2D이미지로부터 3D Mesh를 만들어주는 논문. GT보다 적은 faces를 이용하지만 높은 토폴로지를 보인다고 주장하고 있다. VQ-VAE와 Decoder-only transformer를 이용해 생성한다. 기업으론 SenseTime reserch와 Shanghai AI lab이 포함되어 있는 무려 8개의 팀이 같이 쓴 paper이다. 깃헙을 보니 A6000이 필요하다고.
  • VideoLLM-online: Online Video Large Language Model for Streaming Video
    스트리밍 중인 비디오를 분석해 실시간으로 문답이 가능하다. Llama-2/3에 LoRA를 붙여서 쓴 모델. 놀라운 것은 5~10 FPS로는 RTX3090이면 된다고 한다. (10~15 FPS로 가면 A100) Singapore 국립대와 Meta 공동연구이다.

그리고 조금은 반갑던 한국 대학의 논문들을 소개한다.

둘 다 LLM관련 연구이다. 내 연구도 올라갈 일이 머지 않았다. 아자아자

profile
공부

0개의 댓글