[Daily report] 24-07-03

kiteday·2024년 7월 3일
0

Daily report

목록 보기
47/60
  • Aligning Teacher with Student Preferences for Tailored Training Data Generation
    확실히 내 요즘 관심사와 세간의 관심사들 중 하나는 knowledge distilation이다. 해당 모델은 Teacher-student 구조로 학습하는 기본적으로 distilation을 따르고 있지만 대답의 근거를 같이 제시하는 것으로 주요 차별점을 두었다. 어떻게 그게 가능한지는 더 깊게 살펴봐야 할 듯하다.
  • Gemma 2: Improving Open Language Models at a Practical Size
    Gemma도 2가 나왔다. FFN은 줄어들고 깉이를 키웠다고 한다. 이외에도 여러 바뀐 모델 구조적 트릭들이 있지만 여기서도 knowledge distillation 기법을 썼다. 확실히 LLM의 규모가 커지면서 기존에 있던 지식(knowledge)을 다시 바닥부터 학습하는 것은 어렵고 비효율적인 일이다. Local attention과 global attention을 섞었다고 했는데 이게 어떻게 성능향상에 크게 도움이 되었는지는 더 자세히 봐야할 듯하다.
  • Aligning Diffusion Models with Noise-Conditioned Perception
    LLM에서 자주 등장해왔던 DPO(Direct Preference Optimization), CPO(Contrastive Preference Optimization) 기법들을 Diffusion (특히 SD v1.5와 SDXL 두 모델)에 적용했다고 한다. UNet optimization에서 적용되었다고. 기존에 SDXL-DPO 모델은 나왔는데 (comparison 하고 있음) 이 모델과 달리 해당 모델은 pridict noise가 좋은지 나쁜지도 같이 optimization 하고 있다. 잘되면 좋은 기점 모델로 성장할 수 있을 듯하다.
  • Image Conductor: Precision Control for Interactive Video Synthesis
    Pecking 대학에서 한 비디오 연구. 확실히 비디오 연구는 거의 중국에서 진행되는 것 같다.. 해당 모델은 카메라 뷰를 제어하며 동영상을 생성할 수 있다는 것이 특징이다. img2img video 모델!
  • YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
    body keypoints2image generation 모델. 근데 이제 생성된 결과가 3D인,,, 솔직히 결과 이미지가 놀랍다. skeleton에 살이(3D 이미지가) 잘 붙어 올라갔길래 NerF인가? 생각하고 있었는데 역시나 NeRF 기반의 모델로 훈련했다고 한다.
  • FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
    이 모델 또한 view를 제어한다. (움직임의 흐름을 제어하는 것이라서 해당 모델에서는 trajectory라고 함) t2v 모델이다. 관심가는 부분은 resampler를 통해 성능이 좋아짐을 가시적으로 바로 확인할 수 있단 점이다. resampling이 얼마나 중요한지 생각해볼 수 있다.
profile
공부

0개의 댓글