RePrompt 논문
RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions
RePrompt: Automatic Prompt Editing to Refine AI-Generative Art...
ABSTRACT
- 생성된 이미지가 입력된 텍스트에서 정확하게 맥락과 감정을 표현하는지에 대해서는 명확하지 않습니다.
- AI가 생성한 이미지의 감정적 표현력을 탐구하고, RePrompt라는 자동화된 방법을 개발하여 생성된 이미지의 정확한 감정 표현을 위해 텍스트 프롬프트를 개선하는 방법을 제안하고 있습니다.
- 시뮬레이션 및 사용자 연구를 수행한 결과, RePrompt는 특히 부정적인 감정에 대해 AI가 생성한 이미지의 감정 표현력을 현저히 향상시킴을 보였습니다.
CCS CONCEPTS
- Applied computing; • Media arts; • Human-centered computing; • Interactive systems and tools; • Empirical studies in HCI;
KEYWORDS
- Text-to-image generated model, prompt engineering, AI-generated visual art, emotion expression, explainable AI
INTRODUCTION
- 과거의 연구: 제한된 키워드 세트를 프롬프트로 사용해왔다.
-
Liu와 Chilton의 연구에서는 12개의 주제(사랑, 여자, 나무 등)와 12개의 스타일(초현실주의, 사이버펑크, 디즈니 등) → 크게 다른 이미지 생성을 가져오지 않는다
-
Oppenlaender: 다섯 가지 프롬프트 수정자(주제 용어, 스타일 수정자, 품질 증강 요소, 반복, 매직 용어) → 감정 표현을 위해 텍스트-이미지 생성 모델을 사용하는 실현 가능성은 여전히 불분명
⇒ 따라서 이 연구는 AI가 생성한 이미지가 텍스트 프롬프트에서 전달되는 감정과 일치하는지에 관심을 가지고 연구를 진행하였습니다.
- 감정 표현의 탐구
- AI와 감정 표현을 탐구하는 이유
- emotional intelligence is arguably an indispensable aspect of judging the intelligence of AI
- humans have an innate need to express their emotions.
- 자연스러운 표현을 프롬프트로 사용함으로써 음성과 채팅과 같은 다른 모달리티를 텍스트-이미지 모델과 연결합니다.
- 기여
-
먼저, 우리는 비전문가들이 AI가 생성한 이미지를 어떻게 인식하고 텍스트 프롬프트를 어떻게 편집하여 AI의 출력을 개선하는지 관찰하기 위해 인터뷰 연구를 진행했습니다. (n = 19)
-
We proposed RePrompt, an automatic explainable prompt-refining pipeline.
→ Following our findings from the interview study, we selected intuitive text features.
→ developed a proxy model to analyze the feature effects on the AI-generated image with a large dataset
→ we curated a rubric to allow automatic promptediting to improve the emotional expression of images generated by the AI model.
-
시뮬레이션 연구와 사용자 연구(n = 197)를 수행하여 제안한 방법을 다른 방법과 비교하여 평가했습니다. → 특히 부정적인 감정에 대한 AI가 생성한 이미지의 감정 표현을 현저히 개선할 수 있다
-
end by discussing design implications, the generalization of our method, and potential applications.
2.1 Text-to-Image Generative AI and Vision-Language Model
- 최신 모델들(VQGANCLIP, DALL·E 2 , Stable Diffusion 등)은 창작 과정을 기계에게 맡기고 텍스트 프롬프트 디자인만 사용자에게 남기는 방식으로 전환되었습니다. → 자연어의 모호성과 AI 모델의 불완전함으로 인해 생성 모델이 텍스트 프롬프트에서 사용자의 의도를 얼마나 정확하게 포착할 수 있는지, 그리고 출력을 최적화하기 위해 어떻게 텍스트 프롬프트를 개선할 수 있는지를 이해하는 것은 여전히 중요
- 사전 훈련된 비전-언어 교차 모달 모델(CLIP 및 ALIGN 등)
- 텍스트와 이미지의 표현을 하나의 의미 임베딩 공간에서 학습합니다. 두 임베딩 쌍의 코사인 유사도를 계산하여 그들의 의미적 유사성을 판단합니다.
- CLIP 기반 생성 모델이 텍스트와 이미지의 의미적 의미를 포착할 수 있다는 것을 시사
- 그러나, AI 모델이 더 복잡하고 자연스러운 감정적인 텍스트 프롬프트로 정확한 이미지를 생성할 수 있는지에 대해서는 여전히 불분명합니다.
2.2 Prompt Engineering for Generative AI
= prompt tuning, prompting, prompt-based learning, prompt programming
- 대규모 언어 모델(LLM, 예: GPT-3 ) 및 텍스트-이미지 모델(DALL·E 2 등)을 위한 프롬프트 엔지니어링 ⇒ 자연어 이해, 자연어 생성, 감성 및 사실적인 지식 도출, 이미지 인식, 이미지 생성과 같은 작업에서 모델 출력을 개선하기 위해 프롬프트를 생성하거나 조정하는 것
- 사전 훈련된 생성 모델(GPT-3 및 DALL·E 2 등)이 주어진 경우 모델을 튜닝해야 할 매개변수가 많은 경나 전체 모델에 대한 매개변수 튜닝이 불가능한 경우(DALL·E 2 등)에 효과적
- Many prior works have focused on gradient-based prompt learning methods for automated prompt template curation. Other works have explored gradient-based methods for vision-language tasks. → 이러한 기울기 기반 자동화 방법은 사람이 읽을 수 없는 형태였기 때문에 인간-인공지능 협업에 적용되는 데 제약이 있을 수 있습니다
- Our work falls in this domain of interpretable prompt engineering by leveraging usable information from AI models and providing interpretable automated edits.
- 텍스트-이미지 생성 모델의 구체적인 영역에서는 프롬프트 엔지니어링 연구가 초기 단계입니다. 이미지 생성 작업은 출력과 평가 방법에서 자연어 처리 작업과 다릅니다.
- 이러한 연구들은 수동적인 사후 관찰에 기반한 휴리스틱 방법이었거나 명시적으로 구현되지 않은 방법들이었습니다.
- 본 연구에서는 데이터 기반 및 해석 가능한 감정 표현에 초점을 맞춘 텍스트-이미지 생성을 위한 혁신적인 프롬프트 엔지니어링 접근 방식을 제안합니다.
2.3 Emotional Expression and Assessment in Visual Art
- 컴퓨터 그래픽스와 컴퓨터 비전에서 이미지 품질 평가는 오래된 분야로서 많은 평가 방법이 개발되었지만, 이미지나 시각 예술에서 감정 표현을 정량화하는 것은 여전히 어려운 과제입니다.
- 심리학자들은 관객의 지각과 반응을 통해 시각 예술에서의 감정 표현을 평가하기 위해 다양한 도구를 개발해왔습니다.
- 기계 학습을 통해 이미지 품질과 미적을 자동으로 평가하는 방법을 연구하고 있습니다
- International Affective Picture System 과 Open Affective Standardized Image Set 등
- CLIP와 같은 사전 훈련된 비전-언어 모델의 발전은 대규모 이미지 평가 도구를 가능하게 합니다. Bondielli와 Passaro 는 CLIP 임베딩을 사용하여 감정 이미지 데이터셋 에서 8가지 감정 유형에 대한 제로샷 분류 정확도가 0.49로 나타났으며, ImageNet CNN(정확도 = 0.28)보다 훨씬 정확하고 파인튜닝된 CNN(정확도 = 0.48)의 결과보다 약간 더 정확했습니다
- 우리는 객관적인(즉, CLIP 임베딩) 및 주관적인(즉, 인간 평가) 측정 방법을 평가 시나리오에 적용하였습니다(자세한 내용은 섹션 5 및 6 참조)
2.4 Explainable AI (XAI) and Applications in HCI
- AI 시스템의 복잡성으로 인해 필수적으로 간주되고, 많은 연구들이 XAI가 사용자의 신뢰와 이해를 증가시킬 수 있다
- For human-AI collaboration scenarios, XAI could also provide crucial support to bridge users and the AI system.
- 우리의 연구는 XAI를 적용하여 텍스트-이미지 생성 모델의 프롬프트 특성이 출력에 어떤 영향을 미치는지 이해하고, 해석 가능한 프롬프트 엔지니어링을 개발하여 텍스트-이미지 생성 모델의 감정적 표현력을 효과적으로 개선하는 데 기여합니다. 생성형 AI의 등장으로 더욱 중요해진 설명 가능한 AI (XAI) | 인사이트리포트 | 삼성SDS
3 RESEARCH QUESTIONS AND METHODOLOGY
3.1 Research Questions
- 목표 1) 텍스트-이미지 생성 모델이 감정적인 텍스트를 프롬프트로 사용하여 얼마나 잘 이미지를 생성할 수 있는지 2) 생성된 이미지의 감정적 표현을 개선하는 방법에 대해 탐구
- RQ
- RQ1. 비전문가들은 감정적 표현에 관한 AI가 생성한 이미지를 어떻게 인식하며, 이미지 생성을 개선하기 위해 어떻게 텍스트 프롬프트를 전략적으로 개선할까?
- RQ2. 감정적 표현에 관한 이미지 생성을 위해 텍스트 프롬프트를 자동으로 어떻게 개선할 수 있을까?
- RQ3. RePrompt는 이미지 생성에서 감정적 표현을 개선하는 데 얼마나 효과적일까?
3.2 Methodology
- RQ1
- 인터뷰를 진행하여 비전문가들이 텍스트-이미지 생성 AI 모델(DALLE 2)을 어떻게 이해하고, 우리가 준비한 감정적인 텍스트를 통해 시행착오를 겪으며 어떻게 프롬프트 편집 전략을 개발하는지 평가했습니다
- RQ2
- XAI를 기반으로 한 자동 프롬프트 엔지니어링 방법인 RePrompt를 개발했습니다
- 1) 텍스트-이미지 생성 모델이 더 나은 출력 이미지로 이어질 수 있는 프롬프트 기능을 이해하는 것 → 인터뷰 연구 결과에서 영감을 받은 단어 수와 같은 단어 수준의 텍스트 특성을 선택하고, → 기계 학습 모델을 훈련하여 AI가 생성한 이미지의 품질을 예측 → XAI 기법을 적용하여 특성이 이미지 품질에 어떤 기여를 하는지 이해
- 2) 더 나은 출력 이미지를 얻기 위해 텍스트 프롬프트를 자동으로 수정하는 것 → 단어 수준의 특성을 조작하여 주어진 프롬프트를 알고리즘적으로 수정하는 루브릭을 개발(단어 추가 또는 삭제)
- RQ3
- 계산적인 메트릭과 평가 사용자 연구를 통해 RePrompt 텍스트 프롬프트에서 생성된 이미지의 품질과 다른 텍스트 방법들과의 비교를 수행
- 사용된 텍스트-이미지 모델과 텍스트 데이터셋을 소개
3.3 Text-to-Image Models
- VQGAN-CLIP 이 모델을 선택하여 1만 개의 이미지를 생성하여 프록시 모델을 훈련시켰는데, 그 이유는 그의 공개성과 유연성 때문입니다. VQGAN-CLIP은 VQGAN을 활용하여 이미지를 생성하고, CLIP을 사용하여 생성 모델을 안내합니다.
- DALL·E 2는 확산 모델을 사용하여 이미지를 생성하며, 여전히 CLIP을 사용하여 이미지-텍스트 정렬을 평가하고 이미지 생성을 안내합니다.
- VQGAN-CLIP보다 훨씬 사실적인 이미지를 생성.
- 속이는 내용과 유해한 콘텐츠 생성을 완화하기 위한 필터링 메커니즘이 있다.
- DALL·E 2는 공식 웹사이트를 통해서만 이용 가능하며, 아직 API는 제공되지 않았습니다. 따라서 우리는 텍스트 프롬프트를 수동으로 입력하고 생성된 이미지를 다운로드했습니다.
- DALL·E 2는 주어진 텍스트 프롬프트에 대해 네 개의 고해상도 이미지 세트를 생성하는 데 약 10초가 소요되었습니다.
3.4 Emotional Text Dataset
- EmpatheticDialogues : 감정적인 AI 챗봇을 훈련시키기 위해 자주 사용되는 텍스트 데이터셋
- 감정 레이블이 달린 감정적인 상황에 기반한 2만 5천 개의 대화로 구성되어 있습니다.
- EmpatheticDialogues 데이터셋의 상황 텍스트는 사람들의 실제 감정 경험과 맥락에 근거한 자연스러운 감정 표현으로 우리의 시나리오에 적합합니다.
- 텍스트의 고품질성: 오타, 무작위 기호 및 이상한 약어 등이 없습니다.
4 INTERVIEW STUDY
온라인 인터뷰 연구
4.1 Emotional Texts
- 10가지 감정(기쁨, 슬픔, 분노, 두려움, 외로움, 흥분, 자랑스러움, 놀람, 신뢰, 불안)로부터 200개의 감정적인 텍스트를 무작위로 선택했습니다(각 감정당 20개의 텍스트).
- 신뢰, 불안 제외. 두려움, 외로움, 슬픔 - 강한 부정적인 단어(예: "죽다")로 인해 14개의 텍스트를 제외
- 최종적으로 146개의 텍스트와 해당 이미지로 구성된 집합이 만들어졌습니다.
4.2 Procedure
- 실험자는 Zoom을 통해 참가자와 화면을 공유하고, OpenAI DALL·E 2 웹사이트(https://labs.openai.com)에서 사전 준비된 텍스트를 입력란에 붙여넣었습니다.
- 텍스트-감정 정렬에 대한 읽기 및 언어적 평가 (즉, "이 텍스트가 [외로움] 감정을 얼마나 잘 표현하는 것 같아요?")
- AI가 생성한 이미지(프롬프트당 네 개의 이미지)를 확인
- 이미지-텍스트 정렬 (ITA)에 대한 언어적 평가 (즉, "이미지가 텍스트를 얼마나 잘 표현하는 것 같아요?") 및 이미지-감정 정렬 (IEA)에 대한 언어적 평가 (즉, "이미지가 [외로움] 감정을 얼마나 잘 표현하는 것 같아요?")
- 텍스트를 편집하고 단계 1에서 3까지 반복 (10라운드)
4.3 Participants and Data Collection
- 대학 메일링 리스트에서 19명의 참가자를 모집했습니다. 8명은 남성이었고, 11명은 여성이었으며, 연령은 19세에서 39세까지 다양했습니다
- 실험은 40분에서 60분이 소요되었으며, 참가자들은 10 SGD(7.20 USD)의 보상을 받았습니다. 우리는 참가자의 동의를 받은 Zoom 오디오 통화와 화면 녹화를 통해 온라인으로 연구를 진행했습니다.
4.4 Results
- DALL·E 2에 대한 이해를 통해 다섯 가지 주제를 도출했습니다.
- 참가자의 텍스트 편집 전략
- 전반적으로, 우리는 참가자들의 전략을 두 가지 원칙으로 추상화했습니다: 1) 감정과 핵심 개념을 간결하고 명확하게 만들고, 2) 요소와 설명을 구체적으로 만들기 위해.
- 우리는 데이터 기반 방법을 사용하여 자동으로 텍스트 프롬프트를 개선해야 합니다.
5 TECHNICAL METHOD OF REPROMPT
RQ2. 감정적 표현력과 관련하여 더 나은 이미지를 생성하기 위해 자동으로 텍스트 프롬프트를 개선하는 방법
5.1 Feature Curation
- 인터뷰 연구 결과, 대형 언어 모델의 이해를 위한 이전 연구, 기계 학습을 통한 텍스트 기반 감정 분석 참고함 1) 텍스트 프롬프트의 각 단어의 품사(part-of-speech, POS)를 식별하고, 2) 각 POS 유형의 단어 출현 빈도를 계산 ⇒ 텍스트의 복잡성을 반영 각 POS 유형의 단어의 평균 구체성 점수(예: 형용사의 평균 구체성)를 계산 ⇒ 텍스트의 구체성을 나타냄
- 총 20개의 특성을 고려했으며, 이는 부록의 Figure 10에 나와 있습니다.
- 선별된 특성을 얻은 후에는 이러한 특성을 AI가 생성한 이미지의 품질과 연결할 수 있는 모델이 필요합니다.
5.2 CLIP Score for Image Quality Assessment
- 이미지 품질 = 미적 품질이 아니라 텍스트 프롬프트와의 의미적 일치
- CLIP : 텍스트와 이미지를 하나의 통합된 의미 임베딩 공간에서 표현할 수 있는 사전 훈련된 비전-언어 모델
- CLIP 점수 = 관심 있는 텍스트-이미지 쌍의 CLIP 임베딩 (즉, c와 v)의 코사인 유사도
- 이미지-감정 정렬(IEA) 측정
- 이미지-텍스트 정렬(ITA) 측정
5.3 Proxy Model and Feature Analysis
-
이미지 품질의 계산적 측정 항목으로 CLIP 점수를 사용하기 때문에,
우리는 5.1절에서 선별한 특성을 사용하여, 이미지 품질을 예측하기 위한 기계 학습 모델을 개발했습니다.
-
이러한 특성이 이미지 생성에 어떤 영향을 미치는지
⇒ 이러한 특성 분석을 위한 방법 : 설명 가능한 AI(XAI) 기법 (예: SHAP)
⇒ 그러나 특성 분석을 위해 모델 해석을 계산하려면 모델을 여러 번 호출해야 하는데, 이는 생성 모델에 대해서는 확장성이 없습니다.
-
이 문제를 해결하기 위해 대신 이미지 품질 점수를 추정하기 위한 프록시 모델을 도입합니다.
-
이미지 품질을 예측하기 위한 프록시 모델을 훈련시키기 위해 충분한 훈련 데이터가 필요
-
EmpatheticDialogues 데이터셋(3.4절)에서 32가지 감정을 가진 10,000개의 감정적인 텍스트를 사용했으며, 각 텍스트 인스턴스에 대해 VQGAN-CLIP 모델을 사용하여 하나의 이미지를 생성하고 CLIP 점수 (즉, IEA와 ITA)를 계산했습니다
-
VQGAN-CLIP 구성을 사용하고, NVIDIA GeForce RTX 3090 GPU를 장착한 로컬 워크스테이션 서버에서 이미지를 생성했습니다.
-
텍스트 특성과 분류 레이블을 사용하여 여러 개의 기계 학습 모델 (Random Forest, XGBoost, LightGBM 및 Multi-layer perceptron)을 피팅하였고, LightGBM이 5-fold 교차 검증에서 가장 우수한 성능을 달성했습니다 (IEA의 AUC = 0.60, ITA의 AUC = 0.73).
5.4 Feature Analysis by Model Explanations
1) **SHAP 해석을 사용하여 어떤 특성이 중요한지 확인**
- SHAP은 각 특성의 중요도를 계산하기 위해 해당 특성을 모델에서 제거하고 모델 성능의 감소를 관찰
- SHAP은 각 인스턴스에 대해 하나의 특성 중요도 설명을 제공하며, 전체적인 전역 설명을 보여주기 위해 이를 집계할 수 있습니다.
- SHAP을 프록시 모델에 적용하여 IEA 예측에 대한 전역적인 특성 중요도를 얻었습니다
- 결과적으로 저희는 이 연구에서 명사의 수 (#nouns), 형용사의 수 (#adjs), 동사의 수 (#verbs), 명사의 평균 구체성 (conc_noun), 형용사의 평균 구체성 (conc_adj), 동사의 평균 구체성 (conc_verb)라는 6개의 특성을 선택했습니다.
2) 부분 의존도 그래프(Partial Dependence Plots, PDP)를 사용
- 부분 의존도 그래프 (PDP)는 대상 특성의 값 분포에 따른 모델 출력의 변화를 보여줍니다.
3) 높은 예측을 위한 최적의 특성 값 범위를 식별
- 최적의 특성 값은 1) 텍스트 내의 형용사 수가 1보다 커야 하고, 2) 형용사의 평균 구체성이 2.0보다 커야 한다는 것을 보여주었습니다.
⇒ 이러한 결과는 인터뷰 연구 결과와 일치하며, 프롬프트 개선을 위한 실질적인 영향을 가진 정량적인 근거를 제공
⇒ 최적의 특성 값을 얻기 위해 우리는 구체성 점수가 높은 관련 형용사를 추가하는 간단한 방법을 채택했습니다.
5.5 Rubric for Automatic Prompt-Editing
- 자동 프롬프트 편집을 위한 규칙을 Table 2
- RePrompt의 프롬프트 편집 과정
-
주어진 텍스트에서 먼저 각 단어의 품사(POS)를 라벨링하고, 명사, 동사 또는 형용사가 아닌 단어를 제거
-
단어의 중요도를 계산하기 위해, 해당 단어의 CLIP 점수 (예: "friend")와
감정 레이블이 추가된 전체 텍스트 (이 예시에서는 "My best friend will be going to school in another country for 4 years. Sad.")를 사용
-
단어 중요도 순위를 사용하여 제거할 단어와 추가할 관련 단어를 결정 (years 제거)
-
ConceptNet 에서 상위 3개의 중요한 단어 ("friend", "going", "school")에 대한 관련 단어를 검색
-
검색된 단어 중에서 형용사만 유지
-
검색된 단어에 대해 단어의 중요도를 계산하고 (단계 A와 동일한 방법), 단어 구체성을 찾아서 (>2.0) 필요한 구체성을 가진 가장 중요한 세 단어를 유지
-
우리는 감정 레이블을 추가하여 프롬프트 수정의 최종 출력을 완성
⇒ 요약하면, 모든 형용사와 동사를 유지하고, 하나의 명사를 제거했으며 (왜냐하면 #nouns > 3), 세 개의 형용사를 추가했으며 (왜냐하면 #adjs < 2), 감정 레이블을 추가했습니다.
6 EVALUATION
RQ3. RePrompt는 이미지 생성에서 감정적 표현을 개선하는 데 얼마나 효과적인가요?
6.1 Metrics and Conditions
- 시뮬레이션 연구
- Section 5.2에서와 동일한 정의를 따라 CLIP 점수를 사용하여 이미지-감정 조화 (IEA)와 이미지-텍스트 조화 (ITA)를 객관적으로 측정했습니다.
- 사용자 평가 연구 실시
- 다른 조건의 이미지에 대한 외부 검증자들의 IEA와 ITA 인식을 측정했습니다.
- RePrompt를 다른 세 가지 프롬프트 편집 방법과 비교하여 평가
- 원본 프롬프트
- 수동으로 편집된 프롬프트
- 자동 RePrompt
- 단순히 원본 텍스트에 감정 레이블을 추가하는 단순 자동 텍스트 편집 방법인 Label Appended Prompt
- DALL·E 2를 사용하여 이미지를 생성
6.2 Statistical Methods
- 선형 혼합 효과 회귀 (linear mixed effects regression, LMER) 모델을 사용
- 고정된 주 효과와 상호 작용 효과에 대한 ANOVA를 수행하고 특정한 차이에 대해서는 사후 대조 검정을 실시
6.3 Simulation Study
- 이미지-감정 조화 (IEA) 점수
- 세 가지 프롬프트 편집 방법 모두 원본 프롬프트보다 이미지-감정 조화 (IEA) 점수가 유의하게 높은 이미지를 생성했습니다.
- RePrompt의 이미지가 다른 프롬프트의 이미지보다 유의하게 높은 점수를 얻었습니다. 이에 반해, Manual Edited는 Label Appended보다 낮은 점수를 얻었습니다.
- 이미지-텍스트 조화 (ITA) CLIP 점수
- Manual Edited와 RePrompt는 원본과 비교하여 이미지-텍스트 조화 (ITA) 점수가 유의하게 낮았으며, 이는 이러한 프롬프트가 원본 텍스트를 상당히 변경했음을 시사합니다
- 그러나 Label Appended는 원본과 비교하여 유의하게 더 높은 ITA 점수를 얻었습니다
- 감정 레이블이 원본 텍스트와 매우 관련이 있다는 것을 시사합니다.
6.4 Image Evaluation User Study
- 시뮬레이션 연구에서는 계산적인 지표(CLIP Score)를 사용하여 이미지 품질을 측정했지만, 감정은 주관적이고 다양하기 때문에 사용자 평가가 필요합니다. 실험은 IEA(이미지-감정 정렬) 및 ITA(이미지-텍스트 정렬)를 기준으로 이미지 품질을 검증하기 위해 새로운 참가자를 초청하여 수행되었습니다.
- 절차
- 실험 목적 소개 및 연구에 대한 동의.
- 영어 언어 능력을 평가하기 위한 4문항의 단어 연상 테스트
- 15개의 텍스트 (무작위로 선택)와 해당하는 이미지 그룹을 평가
- 인구통계학적 질문지
- 참가자 및 데이터 수집
- 721명의 참가자 중 197명이 선별되어 조사를 완료했으며, 이들은 Amazon Mechanical Turk에서 모집되었습니다.
- 결과는 146개의 이미지 그룹에 대한 2955회의 평가로 나타났으며, 이미지-감정 정렬, 이미지-텍스트 정렬 및 텍스트-감정 정렬과 관련된 각각의 등급에 대한 평균 집단 간의 상관 관계가 요약되었습니다.
- 평가 결과
- RePrompt 메서드에서 생성된 이미지는 특히 부정적인 감정에 대해 높은 이미지-감정 정렬 등급을 얻었으며, ITA 등급에서도 원본 텍스트보다 높은 등급을 얻었습니다.
- 그러나 결과의 해석에서는 몇 가지 주목할 만한 한계와 모순이 나타났으며, 향후 연구가 필요하다는 결론이 내려졌습니다.
7 SUMMARY OF RESULTS
- RQ1
- 일반인들은 감정적 표현에 관한 AI 생성 이미지를 어떻게 인식
- 1) AI는 복잡하고 추상적인 텍스트보다 간단하고 구체적인 텍스트를 이해할 수 있었습니다
- 2) AI는 일부 개념을 이해하지 못했습니다
- 3) 객관적인 설명을 더 잘 이해했습니다
- 4) AI가 실패할 때 정확하지 않았고 이해하기 어려울 때가 있었습니다.
- 참가자들의 편집 전략
- 1) 감정을 강조하기 위해 감정 단어나 문맥을 추가하거나 조정하는 것
- 2) 문장을 삭제하거나 다시 정리하여 텍스트를 단순화하는 것
- 3) 텍스트의 구체성을 높이는 것
- 4) 자기 표현을 일인칭 관점에서 사진 설명을 하는 제3인칭 관점의 이미지로 변경하는 것
- RQ2
- 일반인의 편집 전략을 기반으로 직관적인 텍스트 특징을 선별
- 기계 학습 모델을 훈련시켜 텍스트 특징을 사용하여 이미지 품질 점수를 예측
- 훈련된 모델에 대한 모델 설명을 적용하여 텍스트 프롬프트를 자동으로 수정하는 루브릭을 생성
- RQ3
- RePrompt가 이미지 생성을 개선하는 데 효과적이며, 특히 부정적인 감정에 대해서는 IEA (이미지-감정 조화) 측면에서 향상되었다는 것을 시사
- 그러나, 사용자 연구에서는 긍정적인 감정의 표현에 대한 차이를 인식하지 못했는데, 이는 인간의 긍정적 자극에 대한 민감도가 낮고, CLIP의 긍정적 감정 모델링 능력이 상대적으로 약할 수 있기 때문일 수 있습니다. ITA (이미지-텍스트 조화) 측면에서는 결과가 혼재되었습니다.
8 DISCUSSION
8.1 Design Implications and Limitations
- 감정적인 텍스트-이미지 생성에 있어서 이미지-텍스트 조화 (ITA)의 CLIP 점수는 인간의 지각과 일치하지 않지만, 이미지-감정 조화 (IEA)의 CLIP 점수는 부정적인 감정에 대해서만 일치한다는 우리의 결과가 나왔습니다.
- 부정적인 감정 (분노와 우울)을 가진 이미지가 긍정적인 감정 (행복과 평온)을 가진 이미지보다 인간의 검증자에 의해 더 정확하게 레이블링되었습니다.
- 또 다른 이유는 CLIP가 세부적인 긍정적 감정을 잘 모델링하지 못할 수 있다는 것
- CLIP와 텍스트-이미지 생성 모델에서의 감정 편향
- 생성 모델을 훈련시키기 위한 감정 데이터셋의 부족이나 긍정적 감정의 세부 사항을 모델링하기 위한 잘 설계된 훈련 전략의 부재로 인한 것일 수 있습니다.
- 텍스트와 이미지에 내재된 감정의 복잡성 (예: 하나의 이미지에 여러 감정이 표현되거나 문맥에 따라 감정이 변화하는 등)을 고려하여 편향을 줄이고 모델의 감수성을 개선하기 위해 정교한 데이터셋과 모델링이 필요합니다.
- VQGAN-CLIP로 얻은 지식이 DALL·E 2의 이미지 생성에 전이될 수 있다
- 루브릭은 VQGAN-CLIP로 생성된 이미지를 기반으로 한 프록시 모델의 모델 설명을 바탕으로 개발되었으며,
- 확장성을 위해 수정된 프롬프트를 DALL·E 2로 적용하여 사용자 평가를 위한 이미지를 생성했습니다.
- 설명 가능한 AI는 프롬프트 엔지니어링에 도움이 될 수 있습니다
- Limitations on feature selection, modeling, and emotional expression measurement
- 첫째로, 우리의 특징은 텍스트의 개별 단어를 기반으로 유도되었는데, 이는 구문과 의미 있는 청크를 분리시킬 수 있습니다. → n-gram, 감성 어휘, 종속성 파싱과 같이 더 정교하지만 이해하기 어려운 특징을 추가함으로써 우리의 접근 방식의 성능을 향상시킬 수 있을 것입니다.
- 둘째로, 우리의 모델링은 텍스트의 의미만을 고려했으며, 스타일과 색상 주제와 같은 이미지 속성은 고려하지 않았습니다.
- 셋째로, 우리는 주관적인 평가를 사용하여 이미지에서 감정적 표현의 인간의 지각을 측정했지만, 시각 자극에 대한 인간의 감정 반응을 평가하기 위해 여러 가지 측정 방법이 있음을 언급합니다. → 보다 엄격한 조사를 위해 심전도, 얼굴 심전도, 피부 전도도 변동성과 같은 측정 방법을 활용해야 합니다.
8.2 Generalization of RePrompt
- 1) 우리 연구에서 생성된 루브릭을 다른 감정 데이터셋에 적용하는 것
- VQGAN-CLIP로 유도한 루브릭이 DALL·E 2에서도 감정적 표현을 개선하는 데 효과적임을 시사
- Twitter에서 수집한 다른 감정 텍스트 데이터셋에서 테스트를 진행
- 2) RePrompt 파이프라인을 텍스트-이미지 생성 모델뿐만 아니라 다른 종류의 표현을 가진 생성 모델에 일반화하는 것
8.3 Benefits, Potential Applications, and Future Work
- 우리의 감정적 표현을 위한 이미지 사용 사례는 정신 건강을 위한 잠재적인 응용 분야에 대한 연구를 촉진
- 텍스트-이미지 생성 모델은 일반인이 감정 표현을 위해 시각 예술을 만드는 임계값을 크게 낮추었으며, 제안된 RePrompt 방법은 생성 모델의 감정적 표현력을 향상시킬 수 있습니다
- 특히 부정적 감정의 세부 사항에 대해서는 더욱 개선할 수 있습니다.
- 따라서 RePrompt는 이미지 생성을 통한 감정 표현을 지원하는 데 사용될 수 있습니다.
- 일반인이 개인의 경험에 대한 텍스트 설명을 사용하여 감정 표현 및 조절 (스트레스 감소를 위한 것 등)을 위해 개인화된 감정 이미지를 생성하는 데 어떻게 지원할 수 있는지 연구하는 것이 가치가 있습니다.
- 자동으로 맥락적 이미지를 생성하여 표현적 쓰기를 향상시키는 것입니다.
- 이미지는 글쓰기 과정에서 문맥을 제공함으로써 작가의 생리적 흥분과 사고를 증가시킬 수 있습니다.
- 이는 자아 표현과 아이디어 발전을 지원할 수 있습니다.
- 감정적 표현을 하는 사용자 경험에 대한 추가적인 연구를 요구하여 잠재적인 응용 분야를 실현하기를 제안합니다.
9 CONCLUSION
- 텍스트-이미지 생성 모델의 텍스트 프롬프트를 자동으로 개선하여 이미지 생성의 의미적 정확성을 향상시키기 위한 RePrompt를 제안했습니다.
- 먼저, 일반인이 AI가 생성한 이미지를 어떻게 인식하고 텍스트 프롬프트를 전략적으로 편집하는지 이해하기 위해 인터뷰 연구를 진행했습니다.
- 참가자들의 프롬프트 편집 전략에서 영감을 받아 RePrompt 파이프라인을 개발하고, 설명 가능하고 자동화된 프롬프트 편집을 가능하게 하는 루브릭을 만들었습니다.
- 이를 통해 생성 AI 모델의 이미지 생성에서 감정적 표현력을 개선하기 위해 RePrompt로 편집된 텍스트 프롬프트가 더 나은 이미지를 생성하도록 유도할 수 있음을 객관적 측정과 주관적 평가를 통해 검증했습니다.
- 특히 부정적인 감정에 대해서는 더욱 개선된 결과를 얻을 수 있었습니다.