[Daily report] 24-10-16

kiteday·2024년 10월 16일
0

Daily report

목록 보기
58/60
  • Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
    비디오에서 카메라 view를 조정하는 논문. 내가 보기엔 CameraCtrl의 결과랑 비교해서 엄청 유의미한 발전을 이룬 기분은 아니다. The University of Texas at Austin, Apple, Google 소속 저자들이 함께 했다. 개인적으로 의미있게 본 것은 related work부분이다. 이 분야의 발전이 얼마나 빠른지 볼 수 있었고, 그만큼 비슷한 목표와 작은 아이디어 싸움 같다고 느꼈다.
  • Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
    DM대신 RF(Rectified flows)-SDE를 사용하여 이미지를 수정하는 논문. 핵심 아이디어는 inversion & editing이다. RF가 어떻게 작동하고 가능한지는 자세히 봐야할듯 싶다. 다만 늘 이 분야의 논문을 읽으며 느끼는 것인데, 모든 이미지 모델은 결국 이미지를 latent vector로 만들고 그 벡터들을 어떻게 구워삶느냐에 따라 결과 이미지가 바뀌는 그 지점을 유념하고 읽으면 된다. The University of Texas at Austin, Google의 논문. ICLR 2025 under-review. (리뷰어들의 리뷰가 궁금해지는 논문)
  • TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models
    비디오 description을 작성하는 모델. 기존의 LLM들이 생성하고 refine하는 과정으로 모델의 정교성을 높인다. 역시나 ICLR 2025 under-review.
  • Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling
    Autoregressive 모델은 VAR 논문 이후로 줄곧 관심깊게 보고 있다. 해당 논문도 AR의 일종인 모델. encoder-decoder 구조의 Set AutoRegressive Modeling (SAR)을 제안하고 있다. 결과 이미지가 좋은 편. 이제 다음은 리소스를 줄이는 과제가 있으리라 예상된다.
  • HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
    Autoregressive 모델 이번엔 트렌스포머가 주 기반이다. hybrid transformer를 제시하는데 이 구조가 discrete and residual tokens 둘 다 다룰 수 있다고 한다. MIT han lab 논문.
  • Baichuan-Omni Technical Report
    7B Multimodal Large Language Model (MLLM)인 Baichuan-Omni의 테크니컬 리포트이다. open-sourse 모델로 image, video, audio, and text이외에도 multimodal interaction을 지원한다고 한다. image, audio 등 각각의 인코더와 projector가 있고 이들을 잘 엮어주는 것이 Baichuan-Omni의 역할이다. 실험 결과도 수치가 좋은데 실제로 써봐야 결과를 알 수 있을 듯.
  • Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis
    딱 논문을 열었는데 페이지가 45장이나 되네..? 앞서 소개한 HART와 비슷한 구조. 역시나 VQ 기반의 autoregressive 방식의 모델로 이미지를 생성한다. 이 또한 ICLR 2025 under-review.

다 적지 못했지만 이외에도 여러 유의미한 논문들이 많았다. LLM에서는 특히 RAG 관련 논문이 자주 보이는 것 같다.
논문들을 살펴보니 ICLR 2025 under-review들이 나오기 시작한다. under-review의 논문들을 보면서 '도대체 ICLR 그곳은 얼마나 어려운 산인가..'절로 느껴졌다. 논문이 publish된다면 가장 좋은 일이겠지만, 그렇지 않아도 충분히 의미있다. 그 배경에는 한 편의 논문을 쓰기 위해서 이 빠른 흐름에 기꺼이 올라타 몸을 던지는 많은 연구자들이 있다. 그들의 지속적인 연구에 대한 열의와 사랑을 존경한다. 나도 오래동안 가졌던 이 사랑을 잘 마무리 해야지.

profile
공부

0개의 댓글