profile
공부

[논문 모음] Story visualization

24.11.01 기준 새로운 story visulization 논문 모음Training-Free Consistent Text-to-Image GenerationMasked Generative Story Transformer with Character Guidance a

2024년 11월 1일
·
0개의 댓글
·

[Daily report] 24-10-22

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models 이미지의 component별로 control 할 수 있는 모델. 내가 선택한 component들로 하나의 이미지를

2024년 10월 22일
·
0개의 댓글
·

[Daily report] 24-10-17

What Matters in Transformers? Not All Attention is Needed 기존의 LLM에 대한 구조적 문제점을 제기하고 Block drop 방식을 실험으로 보여준다. Block drop은 일종의 drop out 기법으로, transfor

2024년 10월 17일
·
0개의 댓글
·

[Daily report] 24-10-16

Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention 비디오에서 카메라 view를 조정하는 논문. 내가 보기엔 CameraCtrl의 결과랑 비교해서 엄청 유의미한 발전을

2024년 10월 16일
·
0개의 댓글
·

[Daily report] 24-09-20

GRIN: GRadient-INformed MoE Microsoft에서 새로운 MoE 모델을 내놓았다. 기존의 MoE는 각 expert를 학습할 때 딥러닝 방식을 사용하는게 일반적인데 해당 모델은 autoregressive language model을 사용한다고 한다

2024년 9월 20일
·
0개의 댓글
·

[Daily report] 24-09-03

CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation LoRA의 파생 모델. (CUR matrix decomposition)https://en.wikipedia.org

2024년 9월 3일
·
0개의 댓글
·

[Daily report] 24-08-22

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 예전부터 이런 모델이 나왔으면 좋겠다 싶었는데 나왔다. Transformer + diffusion이 한번에 하나의 모델이

2024년 8월 22일
·
0개의 댓글
·

[Daily report] 24-08-21

TraDiffusion: Trajectory-Based Training-Free Image Generation diffusion 모델로 이미지를 생성할 때 조건을 제어하는 방법은 두 가지가 있다. 하나는 adapter 등을 추가하는 것이고 다른 하나는 latent v

2024년 8월 21일
·
0개의 댓글
·

[Daily report] 24-08-15

ControlNeXt: Powerful and Efficient Control for Image and Video Generation ControlNet으로 비디오도 제어할 수 있다. 굉장히 scene간의 consistency가 잘 지켜지는 것이 보인다. LoRA를

2024년 8월 15일
·
0개의 댓글
·

[Daily report] 24-08-13

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches SDXL에 LoRA로 finetuning한 전형적인 방식. 방법론 적으로 크게 놀라운 것이 없지만 이

2024년 8월 13일
·
0개의 댓글
·

[Daily report] 24-08-06

POA: Pre-training Once for Models of All Sizes foundation model을 사용할 때 고려해야할 점 중 하나는 크기이다. 이미지 생성을 해본 사람은 알겠지만 여러 모델을 섞다보면 tensor가 맞지 않아서 오류가 생기는 경우가

2024년 8월 6일
·
0개의 댓글
·

[Daily report] 24-08-05

SAM 2: Segment Anything in Images and Videos OpenAI의 그 SAM이 2가 나왔다. 기존버전에 비해 비디오에서는 3배 정확도, 이미지는 6배 속도 향상이 있다고 한다. 이제 완전히 object detect/seg. 분야는 SAM이

2024년 8월 5일
·
0개의 댓글
·

[Daily report] 24-07-26

PyTorch 2.4 Release Blog pytorch 2.4가 release되었습니다. Beta에 보면 python 3.12를 기점으로 두고 이전 버전으로는 3.8~3.11을 지원한다고 하네요. 저도 환경설정할 때 기본 python 버전을 3.8이나 3.11을

2024년 7월 26일
·
0개의 댓글
·

[Daily report] 24-07-10

MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge? 텍스트와 이미지간의 상관성, 이미지 자체의 품질, 때론 이미지 간의 상관성까지 평가해야하는데 Multi-modal 모델을 평가하는 것은 결코 쉬운 일이 아

2024년 7월 10일
·
0개의 댓글
·

[Daily report] 24-07-03

Aligning Teacher with Student Preferences for Tailored Training Data Generation 확실히 내 요즘 관심사와 세간의 관심사들 중 하나는 knowledge distilation이다. 해당 모델은 Teacher-

2024년 7월 3일
·
0개의 댓글
·

[Daily report] 24-06-24

Claude 3.5 Frontier intelligence : Claude 3.5 Sonnet은 graduate-level reasoning (GPQA), undergraduate-level knowledge (MMLU), and coding proficiency (H

2024년 6월 24일
·
0개의 댓글
·

[Daily report] 24-06-21

Autoregressive Image Generation without Vector Quantization autoregressive 방식의 image generation은 대게 vector-quantized tokens가 필요한데 해당 paper는 각 token별로

2024년 6월 21일
·
0개의 댓글
·

[Daily report] 24-06-18

An Empirical Study of Mamba-based Language Models NVIDIA에서 나온 논문. Mamba, Mamba2, Hybrid 모델을 서로 비교했다. 직접 다 읽지 못했지만 arXiv Daily말로는 Hybrid 모델은 트포머 성능을 거

2024년 6월 18일
·
0개의 댓글
·

✨[Daily report] 24-06-13

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation VQGAN에서부터 이어지는 LLM 이미지 생성 계보들의 발전의 현주소인가 생각했다. 모델명은 LlamaGen. Margin-aware

2024년 6월 13일
·
0개의 댓글
·

[Daily report] 24-06-11

GenAI Arena: An Open Evaluation Platform for Generative Models 같은 프롬프트를 주고 다르게 생성한 두 모델을 비교하는 플랫폼을 소개한다. voting 시스템 도입으로 사용자들의 선호를 파악하기도 한다. 여기 사이트에서

2024년 6월 11일
·
0개의 댓글
·