https://arxiv.org/abs/2312.10240
CVPR 2024
1. Introduction
-
Text-to-Image (T2I) 생성 모델은 엔터테인먼트, 예술, 디자인, 광고 등 다양한 분야에서 콘텐츠 제작의 핵심으로 빠르게 자리 잡고 있으며, 이미지 편집, 비디오 생성 등으로 확장되고 있음
-
최근 큰 진보에도 불구하고,
- 생성된 image에는 artifacts(인공물), implausibility(비현실성),
Text description과의 misalignment(불일치), 낮은 aesthetic quality(미적 품질) 등의 문제가 발생
- 아래 예시와 같이, Pick-a-Pic 데이터셋에서는 많은 image들이 왜곡된 인간/동물 몸체, 떠다니는 램프 등과 같은 비현실적인 요소를 포함
![](https://velog.velcdn.com/images/bluein/post/b6f7bf69-2a17-4374-a504-06f1696c0c9e/image.png)
- Human evaluation 실험에서 데이터셋의 image 중 약 10%만이 artifacts와 implausibility가 없는 것으로 나타남
- Text-image misalignment 문제도 흔함 (예: "강에 뛰어드는 남자"라는 설명에 서 있는 남자가 등장)
-
기존 automatic evaluation metrics (IS, FID 등)는 개별 image의 세부사항을 반영하지 못함
-
최근 연구는 인간의 선호도(human preferences)를 수집하여 모델의 image 품질을 prediction
- Single numeric score로 요약하는 것은 한계가 있음
- CLIPScore, 질문 생성 및 답변 파이프라인 등은 비싸고 복잡하며, image의 misalignment 부분을 국소화하지 못함
제안된 개념
- Rich Human Feedback (RichHF-18K) 데이터셋과 Rich Automatic Human Feedback (RAHF) 모델 제안
- RichHF-18K는 18,000장의 image에 대한 세부적인 human feedback을 포함
- Image에서 implausibility/artifacts 부분을 강조하는 point annotation
- 누락되거나 잘못 표현된 개념을 표시하는 prompt의 단어 레이블
- Image의 현실성, text-image alignment, 미학 및 전체 평가에 대한 4가지 fine-grained score
- RAHF는 multi-modal transformer 모델로, 인간의 fine-grained feedback을 prediction
- Misalignment 영역, 잘못된 keyword, fine-grained score prediction 가능
- 신뢰할 수 있는 평가를 제공하며, 생성된 image의 품질에 대한 더 상세하고 explainable insight 제공
- 이는 T2I 생성 모델에 대한 첫 번째 풍부한 피드백 데이터셋 및 모델로, automatic explainable evaluation pipleline 제안
The main contributions
- RichHF-18K 데이터셋 제안
- 18K Pick-a-Pic image에 대해 fine-grained score, artifacts/misalignment image region, misalignment keyword를 포함시킴
- Multi-modal Transformer model (RAHF)
- 생성된 image에 대한 풍부한 feedback prediction
- Test set에서 human annotation과 높은 상관관계 보여줌
- RAHF의 prediction 피드백을 활용하여 image 생성 개선
- Prediction 된 heatmap을 마스크로 사용해 문제 영역을 복원 (inpaint)
- Prediction 된 score를 이용해 image 생성 모델(Muse 등)을 미세 조정
- e.g. via selecting/filtering finetuning data, or as reward guidance
- 두 경우 모두 원래 모델보다 나은 image 생성 가능
- Muse 모델의 개선
3. Collecting Rich Human Feedback
3.1. Data Collection Process
-
RichHF-18K 데이터셋 구성 요소
- 두 개의 heatmap
- Artifacts/implausibility, misalignment
- 네 가지 fine-grained score
- Plausibility, alignment, aesthetics, overall score
- Text sequence
-
Procedure
- 생성된 image를 검토하고, 사용된 text prompt를 읽음
- Prompt에 비추어 implausibility/artifacts 또는 misalignment 위치를 표시하는 포인트를 image에 마킹
- 마킹된 각 포인트는 "유효 반경(effective radius)"을 가지며, 이는 포인트 중심에 가상의 원판을 형성
- 이 방식으로 적은 수의 포인트로 결함이 있는 image 영역을 커버 가능
- Misalignment keyword와 plausibility, image-text alignment, aesthetic, overall quality에 대한 4가지 score를 5-point Likert scale로 평가
- 데이터 수집을 위해 웹 UI를 디자인하여 사용
3.2. Human Feedback Consolidation
- Multiple annotation 통합을 통해 신뢰성 향상
- 각 image-text 쌍은 세 명의 annotator가 annotation
- Score는 여러 annotator의 score를 평균하여 최종 score로 사용
- Misalignment keyword annotation은 다수결 투표로 가장 빈번한 레이블을 선택하여 최종 misalignment keyword 시퀀스 생성
- 포인트 annotation은 heatmap으로 변환한 후 annotator 별로 평균 heatmap을 계산하여 최종 heatmap 생성
3.3. RichHF-18K: A Dataset of Rich Human Feedback
- Pick-a-Pic 데이터셋에서 image-text 쌍의 하위 집합 선택
- 주요 데이터셋은 photo-realistic image를 포함하며, 이는 중요성과 application의 넓은 범위 때문
- Balanced category 확보를 위해 PaLI 시각 질문 응답(VQA) 모델 사용
- image-text 쌍에 대해 두 가지 질문을 통해 기본 기능 추출
- Image가 photo-realistic 한가?
- '인간', '동물', '사물', '실내 장면', '실외 장면' 중 어느 카테고리가 image를 가장 잘 설명하는가?
- PaLI의 답변을 바탕으로 Pick-a-Pic에서 다양한 하위 집합 샘플링, 결과적으로 17K image-text 쌍 도출
- 17K 샘플을 학습 세트(16K)와 검증 세트(1K)로 무작위 분할
- Pick-a-Pic 테스트 세트의 고유한 prompt와 해당 image에 대한 풍부한 human feedback 수집
- 최종적으로 RichHF-18K 데이터셋은 18K image-text 쌍에 대한 풍부한 human feedback을 포함하며, 16K train, 1K validation, 1K test 샘플로 구성
3.4. Data Statistics of RichHF-18K
4. Predicting Rich Human Feedback
4.1. Models
4.1.1. Architecture
4.1.2. Model Variants
-
Multi-head prediction
- 여러 heatmap 및 score를 prediction하기 위해 여러 prediction head를 사용하는 방식
- 각 score 및 heatmap 유형에 대해 하나의 head 사용
- 총 7개의 prediction head 필요
-
Augmented Prompt
- 각 prediction 유형에 대해 single head를 사용하는 방식
- 각 prediction 유형에 대해 세 가지 head(heatmap, score, misalignment sequence) 사용
- Prompt에 출력 유형을 추가하여 모델에 세부 heatmap 또는 score 유형을 전달
- e.g. 특정 task에 대해 'implausibility heatmap'이라는 task 문자열을 prompt에 추가
- 추론 시, prompt에 해당 task 문자열을 추가하여 단일 heatmap(score) head로 다양한 heatmap(score) prediction 가능
- 실험 결과, 이 방식은 특정 task에서 더 나은 성능을 발휘
4.1.3. Model Optimization
- Loss function
- heatmap prediction
- Score prediction
- Misalignment sequence prediction
- Teacher-forcing cross-entropy loss 사용
- Final loss function
- 위 세 가지 loss의 weighted combination
4.2. Experiments
4.2.1. Experimental setup
4.2.2. RichHF-18K test set에 대한 prediction 결과
-
Quantitative analysis
- 아래 표에서 볼 수 있듯이, 제안된 두 모델 변형(multi-head와 augmented prompt 버전)은 모두 ResNet-50보다 우수한 성능을 보임
![](https://velog.velcdn.com/images/bluein/post/cffac2ad-f2c4-4709-94e5-c70480ed26bd/image.png)
- 특히 아래 표와 같이, augmented prompt 버전은 multi-head 버전보다 더 좋은 결과를 보임. 이는 각 prediction task을 별도의 prompt로 명시하여 task 별 vision feature map과 text encoding을 생성한 덕분
![](https://velog.velcdn.com/images/bluein/post/28d6aa71-1cb7-4582-89e2-13f82663ceb0/image.png)
- Misalignment heatmap prediction은 artifact/implausibility heatmap prediction보다 성능이 떨어짐. 이는 misalignment 지역이 잘 정의되지 않아 annotation이 더 noise가 많을 수 있기 때문
![](https://velog.velcdn.com/images/bluein/post/242e5931-c0be-4ff8-b146-1b5ffc4094e4/image.png)
- 위 표는 test set에서 artifact/implausibility heatmap prediction 결과를 나타냄
- GT = 0은 ground truth가 empty implausibility heatmap을 의미
- 즉 artifact나 implausibility가 없음을 의미 (995개의 테스트 샘플 중 69개가 empty heatmap을 가짐)
- GT > 0은 ground truth가 artifact/implausibility가 있는 heatmap을 의미
-
Qualitative examples
- 모델이 prediction한 implausibility heatmap과 misalignment heatmap의 예시
![](https://velog.velcdn.com/images/bluein/post/0d6f3088-fef5-48a8-b662-548dfbb137b5/image.png)
- 위 예시의 prompt는 "슬림한 아시아계 어린이 발레리나가 하얀 타이츠를 입고 해변에서 뛰는 사진 (photo of a slim asian little girl ballerina with long hair wearing white tights running on a beach from behind nikon D5)" 으로, 이 image에서 비현실적인 부분이 heatmap으로 강조
![](https://velog.velcdn.com/images/bluein/post/59fe311e-1f5a-4fc3-8188-ecfccd8d9399/image.png)
- 위 예시의 prompt는 "A snake on a mushroom"
![](https://velog.velcdn.com/images/bluein/post/fa3404e7-0ae2-42c9-a0cf-069a6a7fea1c/image.png)
- Artifact/implausibility가 있는 영역과 prompt와 일치하지 않는 객체를 식별
5. Learning from rich human feedback
RAHF 모델 활용
- RichHF-18K 데이터셋을 통해 학습된 RAHF 모델의 prediction 결과(score, heatmap 등)를 사용하여 image 생성 모델 개선을 탐구
- Muse 모델을 주요 타겟으로 하여 실험, 이 모델은 masked transformer 아키텍처 기반
Finetuning generative models with predicted scores
- Muse 모델을 대상으로 prediction 된 RAHF score를 사용하여 finetuning
- 12,564개의 prompt로부터 생성된 image를 대상으로 RAHF score를 prediction
- 각 prompt의 image 중 최고 score가 일정 기준 이상인 경우, 그 image를 데이터셋에 포함하여 모델을 finetuning
- Muse 모델을 RAHF score 기반으로 finetuning한 후, 새롭게 생성된 image의 plausibility(개연성)에 대한 평가 진행
![](https://velog.velcdn.com/images/bluein/post/3708960b-c981-4fec-a536-86c54bb4b05c/image.png)
- 결과적으로, fine-tuned Muse 모델이 원본 모델보다 더 적은 artifact와 더 높은 개연성을 가짐
Region inpainting with predicted heatmaps and scores
- Prediction 된 implausibility heatmap을 사용하여 특정 영역을 inpainting하여 image 품질을 향상
![](https://velog.velcdn.com/images/bluein/post/db41714a-633d-4a7a-befd-9572b5d70978/image.png)
- 위 예시의 prompt: "A baseball with the parthenon on its cover, sitting on the pitcher’s mound"
![](https://velog.velcdn.com/images/bluein/post/06684c94-0bfd-4e21-b5bc-88f5bc736358/image.png)
-
위 예시의 prompt: "A photograph of a beautiful, modern house that is located in a quiet neighborhood. The house is made of brick and has a large front porch. It has a manicured lawn and a large backyard."
-
Heatmap을 thresholding 및 dilating 처리하여 마스크 생성
-
위의 두 예시에서 처럼, Muse inpainting을 적용하여 text prompt에 맞는 새로운 image를 생성
-
RAHF가 prediction한 plausibility score를 기준으로 최종 image를 선택
6. Conclusions and limitations
- RichHF-18K는 image 생성에 대한 첫 번째 rich human feedback 데이터셋
- Multi-modal Transformer를 설계하고 학습하여 rich human feedback을 prediction
- Prediction 된 rich human feedback을 사용하여 image 생성을 개선할 수 있음을 증명
Limitations
- Misalignment heatmap의 성능이 낮음
- 이는 일부 misalignment 케이스(e.g. image에 없는 객체) 라벨링의 애매모호함 때문일 수 있음
- Pick-a-Pic (Stable Diffusion) 모델 외의 생성 모델에 대한 데이터 수집 필요성
- RAHF 모델을 개선하고 T2I(text-image) 생성에 활용할 다양한 방법 탐구 필요
Future works
- Reinforcement learning
- Prediction 된 heatmap이나 score를 reward signal로 활용하여 생성 모델을 강화 학습으로 finetuning 하는 방법 탐구
- Weighting map
- Prediction 된 heatmap을 가중치 지도(weighting map)로 활용
- Misaligned sequences
- Prediction 된 misaligned sequences를 통해 image 생성 개선
- 이와 같은 내용을 통해 RichHF-18K와 초기 모델들이 미래 연구 방향에 영감을 주기를 기대