24.11.01 기준 새로운 story visulization 논문 모음Training-Free Consistent Text-to-Image GenerationMasked Generative Story Transformer with Character Guidance a
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models 이미지의 component별로 control 할 수 있는 모델. 내가 선택한 component들로 하나의 이미지를
What Matters in Transformers? Not All Attention is Needed 기존의 LLM에 대한 구조적 문제점을 제기하고 Block drop 방식을 실험으로 보여준다. Block drop은 일종의 drop out 기법으로, transfor
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention 비디오에서 카메라 view를 조정하는 논문. 내가 보기엔 CameraCtrl의 결과랑 비교해서 엄청 유의미한 발전을
GRIN: GRadient-INformed MoE Microsoft에서 새로운 MoE 모델을 내놓았다. 기존의 MoE는 각 expert를 학습할 때 딥러닝 방식을 사용하는게 일반적인데 해당 모델은 autoregressive language model을 사용한다고 한다
CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation LoRA의 파생 모델. (CUR matrix decomposition)https://en.wikipedia.org
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 예전부터 이런 모델이 나왔으면 좋겠다 싶었는데 나왔다. Transformer + diffusion이 한번에 하나의 모델이
TraDiffusion: Trajectory-Based Training-Free Image Generation diffusion 모델로 이미지를 생성할 때 조건을 제어하는 방법은 두 가지가 있다. 하나는 adapter 등을 추가하는 것이고 다른 하나는 latent v
ControlNeXt: Powerful and Efficient Control for Image and Video Generation ControlNet으로 비디오도 제어할 수 있다. 굉장히 scene간의 consistency가 잘 지켜지는 것이 보인다. LoRA를
Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches SDXL에 LoRA로 finetuning한 전형적인 방식. 방법론 적으로 크게 놀라운 것이 없지만 이
POA: Pre-training Once for Models of All Sizes foundation model을 사용할 때 고려해야할 점 중 하나는 크기이다. 이미지 생성을 해본 사람은 알겠지만 여러 모델을 섞다보면 tensor가 맞지 않아서 오류가 생기는 경우가
SAM 2: Segment Anything in Images and Videos OpenAI의 그 SAM이 2가 나왔다. 기존버전에 비해 비디오에서는 3배 정확도, 이미지는 6배 속도 향상이 있다고 한다. 이제 완전히 object detect/seg. 분야는 SAM이
PyTorch 2.4 Release Blog pytorch 2.4가 release되었습니다. Beta에 보면 python 3.12를 기점으로 두고 이전 버전으로는 3.8~3.11을 지원한다고 하네요. 저도 환경설정할 때 기본 python 버전을 3.8이나 3.11을
MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge? 텍스트와 이미지간의 상관성, 이미지 자체의 품질, 때론 이미지 간의 상관성까지 평가해야하는데 Multi-modal 모델을 평가하는 것은 결코 쉬운 일이 아
Aligning Teacher with Student Preferences for Tailored Training Data Generation 확실히 내 요즘 관심사와 세간의 관심사들 중 하나는 knowledge distilation이다. 해당 모델은 Teacher-
Claude 3.5 Frontier intelligence : Claude 3.5 Sonnet은 graduate-level reasoning (GPQA), undergraduate-level knowledge (MMLU), and coding proficiency (H
Autoregressive Image Generation without Vector Quantization autoregressive 방식의 image generation은 대게 vector-quantized tokens가 필요한데 해당 paper는 각 token별로
An Empirical Study of Mamba-based Language Models NVIDIA에서 나온 논문. Mamba, Mamba2, Hybrid 모델을 서로 비교했다. 직접 다 읽지 못했지만 arXiv Daily말로는 Hybrid 모델은 트포머 성능을 거
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation VQGAN에서부터 이어지는 LLM 이미지 생성 계보들의 발전의 현주소인가 생각했다. 모델명은 LlamaGen. Margin-aware
GenAI Arena: An Open Evaluation Platform for Generative Models 같은 프롬프트를 주고 다르게 생성한 두 모델을 비교하는 플랫폼을 소개한다. voting 시스템 도입으로 사용자들의 선호를 파악하기도 한다. 여기 사이트에서