IP-Adapter: Text Compatible Image Prompt Adapter for
Text-to-Image Diffusion Models
을 리뷰해보겠습니다.
텍스트 프롬프트의 한계: 강력한 T2I 확산모델이 있어도 원하는 이미지를 얻으려면 프롬프트 엔지니어링이 까다롭고, 텍스트만으로 복잡한 장면/개념을 정확히 전달하기 어렵다. 그래서 “이미지 프롬프트”가 자연스러운 대안으로 부상.
직접 파인튜닝 기반 이미지 프롬프트의 문제: SD Image Variations, unCLIP처럼 텍스트 조건 모델을 이미지 임베딩으로 재학습하면
간단한 어댑터류의 한계: T2I-Adapter(Style), Uni-ControlNet(Global) 등은 CLIP 이미지 임베딩을 텍스트 임베딩과 단순 결합해 투입하지만, 텍스트에 맞춰 학습된 기존 cross-attention의 K/V 가중치만 사용하면 이미지-특이 정보가 소실되어 거친 스타일 제어 수준에 그치기 쉽다.

CLIP 이미지 인코더(동결)에서 글로벌 이미지 임베딩을 뽑고, 작은 프로젝션 네트워크(Linear+LN) 로 N(=4)개의 토큰 시퀀스로 변환.
SD v1.5의 모든 cross-attn 층마다 이미지 전용 cross-attn을 하나씩 추가. 쿼리 는 공유하고, 이미지용 만 추가로 학습(초기값은 텍스트용 로부터 초기화). 최종 출력은 텍스트-attn + 이미지-attn의 합. 기존 UNet은 완전 동결. 파라미터 증가는 약 22M로 경량.





정량 지표(COCO val): CLIP-T/CLIP-I 기준으로,


다양한 스타일/도메인에서 이미지 정합성과 품질이 우수.
ControlNet/T2I-Adapter 등 구조 조건과 그대로 호환되어 스케치/포즈/에지 등과 동시 제어 가능.
멀티모달 프롬프트(이미지+텍스트)에서 텍스트로 속성/배경/장면을 세밀하게 수정 가능.
Inpainting / image-to-image 도 이미지 프롬프트로 자연스럽게 수행.

재사용성: 한 번 학습한 IP-Adapter를 SD v1.5 파생 커스텀 모델(Realistic Vision, Anything v4, ReV Animated 등) 에 그대로 꽂아 사용 가능. SD v1.4에도 작동. → 생태계 호환성이 매우 높음.
요약된 이점: (i) 경량(22M), (ii) 원본 모델 동결 → 안전/안정, (iii) 텍스트 기능 보존 + 멀티모달 가능, (iv) ControlNet 등과 조합 가능, (v) 커스텀 파생모델에 재사용 용이.
Decoupled Cross-Attention의 필요성(그림 10):
단순 결합(이미지+텍스트 특징을 합쳐 기존 cross-attn에 투입) 대비, 분리형(decoupled) 이 품질/참조 정합성 모두 크게 향상. 즉, 이미지 전용 K/V를 따로 두는 설계가 핵심 기여임을 입증.
글로벌 vs 세밀(파인-그레인드) 특징:
CLIP 글로벌 임베딩 기반은 다양성/유연성이 좋지만 세밀 정보가 일부 부족할 수 있음. 반대로 세밀 특징(그리드 feature + 16 learnable query 토큰) 을 쓰면 참조 일치도가 더 높아지나 공간적 구조를 더 강하게 모사해 다양성이 줄 수 있음. 필요 시 텍스트나 구조 조건과 함께 다양성 보완 가능.