[Daily report] 24-04-04

kiteday·2024년 4월 4일

Daily report

목록 보기

19/60

paper

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
diffusion기반 모델이 클수록 성능이 좋아진 것은 맞지만 모든 경우에 적용되는 이야기는 아니라는 것
Measuring Style Similarity in Diffusion Models
스타일이 잘 적용되었는지 어떻게 평가할 수 있을지에 대해 고민한 논문. 짧게나마 스타일 정의에 대해 언급하고 있는데 내 논문에 들어간 해당 정의와 비슷하지만 더 단순하게 언급이 되어있다.
CosmicMan: A Text-to-Image Foundation Model for Humans
CVPR 2024에 accept된 논문. 하나의 생성 이미지에 조건이 다수일 때 (예: white cotten hat, gray cotten long sleeve, ...) 이를 모두 반영할 수 있다고 한다. 이 모델 자체보다 모델을 훈련하기 위해 dataset을 생성하는 과정이 더 인상깊었다.
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
SPRIGHT 생성 이미지 성능을 높였다고 이야기하는 모델. 역시나 데이터셋이 관심간다. 기존에 있던 text2image pair인 데이터셋의 text caption을 더 자세하게 수정했다.(re-caption)
Streaming Dense Video Captioning
비디오에 자동 캡션을 달아주는 논문이다. 구글에서 한 연구로 Gemini 시연 영상에서 동영상으로 실시간 인터렉션하는게 궁금했는데 연관이 있을까?
HyperCLOVA X Technical Report
네이버 클로바팀의 technical report. 정말 멋지다.
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
MMFM(multimodal foundation models)에 관한 논문이다. Gemma 모델을 메인으로 응용한 모델인 것 같다.
CameraCtrl: Enabling Camera Control for Text-to-Video Generation
카메라 view에 따라 영상은 변화하는데 입력 영상의 움직임을 그대로 합성 영상에 반영한다.
✨MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
결과 이미지가 놀랍다. 명화에서 주방을 전체 3D scene으로 합성한다. 물론 사람에 대해서는 아직 부족한 부분이 있다.
Are large language models superhuman chemists?
chemical science에 대한 LLM을 연구한 논문이다. question-answer pair text dataset으로 학습한다.

[Daily report] 24-04-04

Daily report

paper

[Daily report] 24-04-01

[Daily report] 24-04-05

0개의 댓글

관련 채용 정보