D2F: Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing
기존 LLM보다 처리속도를 줄인 모델. 정리를 잘해놓았다. 기존 LLM이 연산 시간이 오래 걸리는 이유는 크게 2가지로 첫 번째는 bidiractional attention을 사용하면서 key-value cable 방식으로 연산하는데 이게 많은 양의 연산량이 필요하다. 두 번째로는 시작부터 현재까지의 denoising을 연산하기 때문이다. 이 모델은 attention을 이전 block만 계산하고, rich text에 대해서만 bidiraction을 계산하는 것으로 바꿔서 시간을 줄였다. A100 8대 12시간만에 학습 완료라고 하니 굉장히 짧은 시간이다.
Story2Board: A Training‑Free Approach for Expressive Storyboard Generation
모델을 두 단계로 나눠서 학습없이 identity를 유지하는 방법을 제안한다. 첫번째는 Latent Panel Anchoring 패널간의 latent를 공유하여 일관성을 유지한다. 두 번째는 Reciprocal Attention Value Mixing, 현재 토큰과 시각적 요소 (배경 등)를 적절하게 섞어준다. 손가락 같은 디테일이 유지되는 것은 좋은데 이미 두 번째 예시 이미지에서 캐릭터가 일관되게 생성 되지 않아서 방법이 그리 좋은 것 같진 않다. (머리 묶고 푸름) 내가 연구한 모델이랑 비슷한데 일 년 사이 더 업글된 기분
Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
벤치마크 논문으로 모델도 모델인데 데이터셋이 중요한 논문이다. 저자들은 GPT-4o부터 합성 방식을 제안한다. 그 이유는 첫 번째, GPT-40가 생성하는 이미지가 real-image를 레퍼 삼아서 생성하므로 이미 데이터가(독특한 개체 등) 충분하기 때문에 multi-reference image generation이 가능하기 때문이고, 두 번째는 real-image의 background에는 이미 많은 노이즈가 있다는 것이다. (학습 대상이 될 정도로 챌린징한 포인트라는 것) 벤치마크 논문은 역시 어렵다.