jmipar-k.log
로그인
jmipar-k.log
로그인
Style Aligned Image Generation via Shared Attention (CVPR 2024)
박정민 (Jungmin Park)
·
2025년 5월 14일
팔로우
0
논문 리뷰
목록 보기
21/21
Abstract
T2I 모델들은 좋은 성능을 보이고 있지만, 일정한 스타일을 유지하도록 보장하는 것은 여전히 도전이다.
최소한의 어텐션 공유로 본 논문에서는 스타일이 정렬된 데이터의 모음을 생성하는 것을 가능케 한다.
Method
본 논문의 목표는 스타일이 text prompt인
y
1
,
y
2
,
.
.
.
y
n
{y_1, y_2, ...y_n}
y
1
,
y
2
,
.
.
.
y
n
가 들어올 때, 각각의 스타일에 대응하는 이미지의 그룹들인
I
1
,
I
2
,
.
.
.
,
I
n
I_1, I_2, ..., I_n
I
1
,
I
2
,
.
.
.
,
I
n
를 만들어내는 것이다.
본 방식의 핵심 insight는 self-attention mechanism을 다양한 생성된 이미지들에 전반적으로 소통할 수 있게 만드는 것이다.
Full attention Sharing을 진행하게 되면 생성된 데이터 자체를 해칠 수 있다. 위 사진에서 유니콘에 공룡의 녹색이 섞여들어간 것과도 같다.
이를 방지 및 해결하고자 저자들은 모든 이미지끼리 attention 공유를 하는 것이 아니라, 한 개의 이미지랑만 attention sharing을 진행한다고 한다. (주로 배치에서 첫 번째 사진이 된다.)
하지만 이러한 방법은 style이 정확하게 정렬되지는 않은 것을 확인할 수 있으며, 이유로는 attention의 흐름이 너무 약해서 그렇다고 생각한다.
위 둘의 문제를 상호보완하기 위해서 위와 같은 사진의 shared attention layer를 사용한다.
AdaIN를 사용하여서 target과 reference의 쿼리 및 키를 정규화한다.
결과는 다음과 같다.
박정민 (Jungmin Park)
1999.09.10 / LIG Nex1 AI Researcher
팔로우
이전 포스트
NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models (CVPR 2024)
0개의 댓글
댓글 작성