Gemma 2: Improving Open Language Models at a Practical Size
Gemma도 2가 나왔다. FFN은 줄어들고 깉이를 키웠다고 한다. 이외에도 여러 바뀐 모델 구조적 트릭들이 있지만 여기서도 knowledge distillation 기법을 썼다. 확실히 LLM의 규모가 커지면서 기존에 있던 지식(knowledge)을 다시 바닥부터 학습하는 것은 어렵고 비효율적인 일이다. Local attention과 global attention을 섞었다고 했는데 이게 어떻게 성능향상에 크게 도움이 되었는지는 더 자세히 봐야할 듯하다.
Aligning Diffusion Models with Noise-Conditioned Perception
LLM에서 자주 등장해왔던 DPO(Direct Preference Optimization), CPO(Contrastive Preference Optimization) 기법들을 Diffusion (특히 SD v1.5와 SDXL 두 모델)에 적용했다고 한다. UNet optimization에서 적용되었다고. 기존에 SDXL-DPO 모델은 나왔는데 (comparison 하고 있음) 이 모델과 달리 해당 모델은 pridict noise가 좋은지 나쁜지도 같이 optimization 하고 있다. 잘되면 좋은 기점 모델로 성장할 수 있을 듯하다.