RePrompt 논문

Hyun Lee·2023년 11월 21일

RePrompt 논문

RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions

RePrompt: Automatic Prompt Editing to Refine AI-Generative Art...

ABSTRACT

  • 생성된 이미지가 입력된 텍스트에서 정확하게 맥락과 감정을 표현하는지에 대해서는 명확하지 않습니다.
  • AI가 생성한 이미지의 감정적 표현력을 탐구하고, RePrompt라는 자동화된 방법을 개발하여 생성된 이미지의 정확한 감정 표현을 위해 텍스트 프롬프트를 개선하는 방법을 제안하고 있습니다.
  • 시뮬레이션 및 사용자 연구를 수행한 결과, RePrompt는 특히 부정적인 감정에 대해 AI가 생성한 이미지의 감정 표현력을 현저히 향상시킴을 보였습니다.

CCS CONCEPTS

  • Applied computing; • Media arts; • Human-centered computing; • Interactive systems and tools; • Empirical studies in HCI;

KEYWORDS

  • Text-to-image generated model, prompt engineering, AI-generated visual art, emotion expression, explainable AI

INTRODUCTION

  • 과거의 연구: 제한된 키워드 세트를 프롬프트로 사용해왔다.
    • Liu와 Chilton의 연구에서는 12개의 주제(사랑, 여자, 나무 등)와 12개의 스타일(초현실주의, 사이버펑크, 디즈니 등) → 크게 다른 이미지 생성을 가져오지 않는다

    • Oppenlaender: 다섯 가지 프롬프트 수정자(주제 용어, 스타일 수정자, 품질 증강 요소, 반복, 매직 용어) → 감정 표현을 위해 텍스트-이미지 생성 모델을 사용하는 실현 가능성은 여전히 불분명

      ⇒ 따라서 이 연구는 AI가 생성한 이미지가 텍스트 프롬프트에서 전달되는 감정과 일치하는지에 관심을 가지고 연구를 진행하였습니다.

  • 감정 표현의 탐구
    • AI와 감정 표현을 탐구하는 이유
      • emotional intelligence is arguably an indispensable aspect of judging the intelligence of AI
      • humans have an innate need to express their emotions.
    • 자연스러운 표현을 프롬프트로 사용함으로써 음성과 채팅과 같은 다른 모달리티를 텍스트-이미지 모델과 연결합니다.
  • 기여
    1. 먼저, 우리는 비전문가들이 AI가 생성한 이미지를 어떻게 인식하고 텍스트 프롬프트를 어떻게 편집하여 AI의 출력을 개선하는지 관찰하기 위해 인터뷰 연구를 진행했습니다. (n = 19)

    2. We proposed RePrompt, an automatic explainable prompt-refining pipeline.

      → Following our findings from the interview study, we selected intuitive text features.

      → developed a proxy model to analyze the feature effects on the AI-generated image with a large dataset

      → we curated a rubric to allow automatic promptediting to improve the emotional expression of images generated by the AI model.

    3. 시뮬레이션 연구와 사용자 연구(n = 197)를 수행하여 제안한 방법을 다른 방법과 비교하여 평가했습니다. → 특히 부정적인 감정에 대한 AI가 생성한 이미지의 감정 표현을 현저히 개선할 수 있다

    4. end by discussing design implications, the generalization of our method, and potential applications.


2.1 Text-to-Image Generative AI and Vision-Language Model

  • 최신 모델들(VQGANCLIP, DALL·E 2 , Stable Diffusion 등)은 창작 과정을 기계에게 맡기고 텍스트 프롬프트 디자인만 사용자에게 남기는 방식으로 전환되었습니다. → 자연어의 모호성과 AI 모델의 불완전함으로 인해 생성 모델이 텍스트 프롬프트에서 사용자의 의도를 얼마나 정확하게 포착할 수 있는지, 그리고 출력을 최적화하기 위해 어떻게 텍스트 프롬프트를 개선할 수 있는지를 이해하는 것은 여전히 중요
  • 사전 훈련된 비전-언어 교차 모달 모델(CLIP 및 ALIGN 등)
    • 텍스트와 이미지의 표현을 하나의 의미 임베딩 공간에서 학습합니다. 두 임베딩 쌍의 코사인 유사도를 계산하여 그들의 의미적 유사성을 판단합니다.
    • CLIP 기반 생성 모델이 텍스트와 이미지의 의미적 의미를 포착할 수 있다는 것을 시사
    • 그러나, AI 모델이 더 복잡하고 자연스러운 감정적인 텍스트 프롬프트로 정확한 이미지를 생성할 수 있는지에 대해서는 여전히 불분명합니다.

2.2 Prompt Engineering for Generative AI

= prompt tuning, prompting, prompt-based learning, prompt programming

  • 대규모 언어 모델(LLM, 예: GPT-3 ) 및 텍스트-이미지 모델(DALL·E 2 등)을 위한 프롬프트 엔지니어링 ⇒ 자연어 이해, 자연어 생성, 감성 및 사실적인 지식 도출, 이미지 인식, 이미지 생성과 같은 작업에서 모델 출력을 개선하기 위해 프롬프트를 생성하거나 조정하는 것
  • 사전 훈련된 생성 모델(GPT-3 및 DALL·E 2 등)이 주어진 경우 모델을 튜닝해야 할 매개변수가 많은 경나 전체 모델에 대한 매개변수 튜닝이 불가능한 경우(DALL·E 2 등)에 효과적
  • Many prior works have focused on gradient-based prompt learning methods for automated prompt template curation. Other works have explored gradient-based methods for vision-language tasks. → 이러한 기울기 기반 자동화 방법은 사람이 읽을 수 없는 형태였기 때문에 인간-인공지능 협업에 적용되는 데 제약이 있을 수 있습니다
  • Our work falls in this domain of interpretable prompt engineering by leveraging usable information from AI models and providing interpretable automated edits.
  • 텍스트-이미지 생성 모델의 구체적인 영역에서는 프롬프트 엔지니어링 연구가 초기 단계입니다. 이미지 생성 작업은 출력과 평가 방법에서 자연어 처리 작업과 다릅니다.
    • 이러한 연구들은 수동적인 사후 관찰에 기반한 휴리스틱 방법이었거나 명시적으로 구현되지 않은 방법들이었습니다.
    • 본 연구에서는 데이터 기반 및 해석 가능한 감정 표현에 초점을 맞춘 텍스트-이미지 생성을 위한 혁신적인 프롬프트 엔지니어링 접근 방식을 제안합니다.

2.3 Emotional Expression and Assessment in Visual Art

  • 컴퓨터 그래픽스와 컴퓨터 비전에서 이미지 품질 평가는 오래된 분야로서 많은 평가 방법이 개발되었지만, 이미지나 시각 예술에서 감정 표현을 정량화하는 것은 여전히 어려운 과제입니다.
  • 심리학자들은 관객의 지각과 반응을 통해 시각 예술에서의 감정 표현을 평가하기 위해 다양한 도구를 개발해왔습니다.
  • 기계 학습을 통해 이미지 품질과 미적을 자동으로 평가하는 방법을 연구하고 있습니다
    • International Affective Picture System 과 Open Affective Standardized Image Set 등
    • CLIP와 같은 사전 훈련된 비전-언어 모델의 발전은 대규모 이미지 평가 도구를 가능하게 합니다. Bondielli와 Passaro 는 CLIP 임베딩을 사용하여 감정 이미지 데이터셋 에서 8가지 감정 유형에 대한 제로샷 분류 정확도가 0.49로 나타났으며, ImageNet CNN(정확도 = 0.28)보다 훨씬 정확하고 파인튜닝된 CNN(정확도 = 0.48)의 결과보다 약간 더 정확했습니다
  • 우리는 객관적인(즉, CLIP 임베딩) 및 주관적인(즉, 인간 평가) 측정 방법을 평가 시나리오에 적용하였습니다(자세한 내용은 섹션 5 및 6 참조)

2.4 Explainable AI (XAI) and Applications in HCI

  • AI 시스템의 복잡성으로 인해 필수적으로 간주되고, 많은 연구들이 XAI가 사용자의 신뢰와 이해를 증가시킬 수 있다
  • For human-AI collaboration scenarios, XAI could also provide crucial support to bridge users and the AI system.
  • 우리의 연구는 XAI를 적용하여 텍스트-이미지 생성 모델의 프롬프트 특성이 출력에 어떤 영향을 미치는지 이해하고, 해석 가능한 프롬프트 엔지니어링을 개발하여 텍스트-이미지 생성 모델의 감정적 표현력을 효과적으로 개선하는 데 기여합니다. 생성형 AI의 등장으로 더욱 중요해진 설명 가능한 AI (XAI) | 인사이트리포트 | 삼성SDS

3 RESEARCH QUESTIONS AND METHODOLOGY

3.1 Research Questions

  • 목표 1) 텍스트-이미지 생성 모델이 감정적인 텍스트를 프롬프트로 사용하여 얼마나 잘 이미지를 생성할 수 있는지 2) 생성된 이미지의 감정적 표현을 개선하는 방법에 대해 탐구
  • RQ
    • RQ1. 비전문가들은 감정적 표현에 관한 AI가 생성한 이미지를 어떻게 인식하며, 이미지 생성을 개선하기 위해 어떻게 텍스트 프롬프트를 전략적으로 개선할까?
    • RQ2. 감정적 표현에 관한 이미지 생성을 위해 텍스트 프롬프트를 자동으로 어떻게 개선할 수 있을까?
    • RQ3. RePrompt는 이미지 생성에서 감정적 표현을 개선하는 데 얼마나 효과적일까?

3.2 Methodology

  • RQ1
    • 인터뷰를 진행하여 비전문가들이 텍스트-이미지 생성 AI 모델(DALLE 2)을 어떻게 이해하고, 우리가 준비한 감정적인 텍스트를 통해 시행착오를 겪으며 어떻게 프롬프트 편집 전략을 개발하는지 평가했습니다
  • RQ2
    • XAI를 기반으로 한 자동 프롬프트 엔지니어링 방법인 RePrompt를 개발했습니다
    • 1) 텍스트-이미지 생성 모델이 더 나은 출력 이미지로 이어질 수 있는 프롬프트 기능을 이해하는 것 → 인터뷰 연구 결과에서 영감을 받은 단어 수와 같은 단어 수준의 텍스트 특성을 선택하고, → 기계 학습 모델을 훈련하여 AI가 생성한 이미지의 품질을 예측 → XAI 기법을 적용하여 특성이 이미지 품질에 어떤 기여를 하는지 이해
    • 2) 더 나은 출력 이미지를 얻기 위해 텍스트 프롬프트를 자동으로 수정하는 것 → 단어 수준의 특성을 조작하여 주어진 프롬프트를 알고리즘적으로 수정하는 루브릭을 개발(단어 추가 또는 삭제)
  • RQ3
    • 계산적인 메트릭과 평가 사용자 연구를 통해 RePrompt 텍스트 프롬프트에서 생성된 이미지의 품질과 다른 텍스트 방법들과의 비교를 수행
    • 사용된 텍스트-이미지 모델과 텍스트 데이터셋을 소개

3.3 Text-to-Image Models

  • VQGAN-CLIP 이 모델을 선택하여 1만 개의 이미지를 생성하여 프록시 모델을 훈련시켰는데, 그 이유는 그의 공개성과 유연성 때문입니다. VQGAN-CLIP은 VQGAN을 활용하여 이미지를 생성하고, CLIP을 사용하여 생성 모델을 안내합니다.
  • DALL·E 2는 확산 모델을 사용하여 이미지를 생성하며, 여전히 CLIP을 사용하여 이미지-텍스트 정렬을 평가하고 이미지 생성을 안내합니다.
    • VQGAN-CLIP보다 훨씬 사실적인 이미지를 생성.
    • 속이는 내용과 유해한 콘텐츠 생성을 완화하기 위한 필터링 메커니즘이 있다.
    • DALL·E 2는 공식 웹사이트를 통해서만 이용 가능하며, 아직 API는 제공되지 않았습니다. 따라서 우리는 텍스트 프롬프트를 수동으로 입력하고 생성된 이미지를 다운로드했습니다.
    • DALL·E 2는 주어진 텍스트 프롬프트에 대해 네 개의 고해상도 이미지 세트를 생성하는 데 약 10초가 소요되었습니다.

3.4 Emotional Text Dataset

  • EmpatheticDialogues : 감정적인 AI 챗봇을 훈련시키기 위해 자주 사용되는 텍스트 데이터셋
    • 감정 레이블이 달린 감정적인 상황에 기반한 2만 5천 개의 대화로 구성되어 있습니다.
    • EmpatheticDialogues 데이터셋의 상황 텍스트는 사람들의 실제 감정 경험과 맥락에 근거한 자연스러운 감정 표현으로 우리의 시나리오에 적합합니다.
    • 텍스트의 고품질성: 오타, 무작위 기호 및 이상한 약어 등이 없습니다.

4 INTERVIEW STUDY

온라인 인터뷰 연구

4.1 Emotional Texts

  • 10가지 감정(기쁨, 슬픔, 분노, 두려움, 외로움, 흥분, 자랑스러움, 놀람, 신뢰, 불안)로부터 200개의 감정적인 텍스트를 무작위로 선택했습니다(각 감정당 20개의 텍스트).
  • 신뢰, 불안 제외. 두려움, 외로움, 슬픔 - 강한 부정적인 단어(예: "죽다")로 인해 14개의 텍스트를 제외
  • 최종적으로 146개의 텍스트와 해당 이미지로 구성된 집합이 만들어졌습니다.

4.2 Procedure

  • 실험자는 Zoom을 통해 참가자와 화면을 공유하고, OpenAI DALL·E 2 웹사이트(https://labs.openai.com)에서 사전 준비된 텍스트를 입력란에 붙여넣었습니다.
    1. 텍스트-감정 정렬에 대한 읽기 및 언어적 평가 (즉, "이 텍스트가 [외로움] 감정을 얼마나 잘 표현하는 것 같아요?")
    2. AI가 생성한 이미지(프롬프트당 네 개의 이미지)를 확인
    3. 이미지-텍스트 정렬 (ITA)에 대한 언어적 평가 (즉, "이미지가 텍스트를 얼마나 잘 표현하는 것 같아요?") 및 이미지-감정 정렬 (IEA)에 대한 언어적 평가 (즉, "이미지가 [외로움] 감정을 얼마나 잘 표현하는 것 같아요?")
    4. 텍스트를 편집하고 단계 1에서 3까지 반복 (10라운드)

4.3 Participants and Data Collection

  • 대학 메일링 리스트에서 19명의 참가자를 모집했습니다. 8명은 남성이었고, 11명은 여성이었으며, 연령은 19세에서 39세까지 다양했습니다
  • 실험은 40분에서 60분이 소요되었으며, 참가자들은 10 SGD(7.20 USD)의 보상을 받았습니다. 우리는 참가자의 동의를 받은 Zoom 오디오 통화와 화면 녹화를 통해 온라인으로 연구를 진행했습니다.

4.4 Results

  • DALL·E 2에 대한 이해를 통해 다섯 가지 주제를 도출했습니다.
  • 참가자의 텍스트 편집 전략
    • 전반적으로, 우리는 참가자들의 전략을 두 가지 원칙으로 추상화했습니다: 1) 감정과 핵심 개념을 간결하고 명확하게 만들고, 2) 요소와 설명을 구체적으로 만들기 위해.
    • 우리는 데이터 기반 방법을 사용하여 자동으로 텍스트 프롬프트를 개선해야 합니다.

5 TECHNICAL METHOD OF REPROMPT

RQ2. 감정적 표현력과 관련하여 더 나은 이미지를 생성하기 위해 자동으로 텍스트 프롬프트를 개선하는 방법

5.1 Feature Curation

  • 인터뷰 연구 결과, 대형 언어 모델의 이해를 위한 이전 연구, 기계 학습을 통한 텍스트 기반 감정 분석 참고함 1) 텍스트 프롬프트의 각 단어의 품사(part-of-speech, POS)를 식별하고, 2) 각 POS 유형의 단어 출현 빈도를 계산 ⇒ 텍스트의 복잡성을 반영 각 POS 유형의 단어의 평균 구체성 점수(예: 형용사의 평균 구체성)를 계산 ⇒ 텍스트의 구체성을 나타냄
  • 총 20개의 특성을 고려했으며, 이는 부록의 Figure 10에 나와 있습니다.
  • 선별된 특성을 얻은 후에는 이러한 특성을 AI가 생성한 이미지의 품질과 연결할 수 있는 모델이 필요합니다.

5.2 CLIP Score for Image Quality Assessment

  • 이미지 품질 = 미적 품질이 아니라 텍스트 프롬프트와의 의미적 일치
  • CLIP : 텍스트와 이미지를 하나의 통합된 의미 임베딩 공간에서 표현할 수 있는 사전 훈련된 비전-언어 모델
  • CLIP 점수 = 관심 있는 텍스트-이미지 쌍의 CLIP 임베딩 (즉, c와 v)의 코사인 유사도
    • 이미지-감정 정렬(IEA) 측정
    • 이미지-텍스트 정렬(ITA) 측정

5.3 Proxy Model and Feature Analysis

  • 이미지 품질의 계산적 측정 항목으로 CLIP 점수를 사용하기 때문에,

    우리는 5.1절에서 선별한 특성을 사용하여, 이미지 품질을 예측하기 위한 기계 학습 모델을 개발했습니다.

  • 이러한 특성이 이미지 생성에 어떤 영향을 미치는지

    ⇒ 이러한 특성 분석을 위한 방법 : 설명 가능한 AI(XAI) 기법 (예: SHAP)

    ⇒ 그러나 특성 분석을 위해 모델 해석을 계산하려면 모델을 여러 번 호출해야 하는데, 이는 생성 모델에 대해서는 확장성이 없습니다.

  • 이 문제를 해결하기 위해 대신 이미지 품질 점수를 추정하기 위한 프록시 모델을 도입합니다.

  • 이미지 품질을 예측하기 위한 프록시 모델을 훈련시키기 위해 충분한 훈련 데이터가 필요

  • EmpatheticDialogues 데이터셋(3.4절)에서 32가지 감정을 가진 10,000개의 감정적인 텍스트를 사용했으며, 각 텍스트 인스턴스에 대해 VQGAN-CLIP 모델을 사용하여 하나의 이미지를 생성하고 CLIP 점수 (즉, IEA와 ITA)를 계산했습니다

  • VQGAN-CLIP 구성을 사용하고, NVIDIA GeForce RTX 3090 GPU를 장착한 로컬 워크스테이션 서버에서 이미지를 생성했습니다.

  • 텍스트 특성과 분류 레이블을 사용하여 여러 개의 기계 학습 모델 (Random Forest, XGBoost, LightGBM 및 Multi-layer perceptron)을 피팅하였고, LightGBM이 5-fold 교차 검증에서 가장 우수한 성능을 달성했습니다 (IEA의 AUC = 0.60, ITA의 AUC = 0.73).

5.4 Feature Analysis by Model Explanations

  1) **SHAP 해석을 사용하여 어떤 특성이 중요한지 확인**
  • SHAP은 각 특성의 중요도를 계산하기 위해 해당 특성을 모델에서 제거하고 모델 성능의 감소를 관찰
  • SHAP은 각 인스턴스에 대해 하나의 특성 중요도 설명을 제공하며, 전체적인 전역 설명을 보여주기 위해 이를 집계할 수 있습니다.
  • SHAP을 프록시 모델에 적용하여 IEA 예측에 대한 전역적인 특성 중요도를 얻었습니다
  • 결과적으로 저희는 이 연구에서 명사의 수 (#nouns), 형용사의 수 (#adjs), 동사의 수 (#verbs), 명사의 평균 구체성 (conc_noun), 형용사의 평균 구체성 (conc_adj), 동사의 평균 구체성 (conc_verb)라는 6개의 특성을 선택했습니다.

2) 부분 의존도 그래프(Partial Dependence Plots, PDP)를 사용

  • 부분 의존도 그래프 (PDP)는 대상 특성의 값 분포에 따른 모델 출력의 변화를 보여줍니다.

3) 높은 예측을 위한 최적의 특성 값 범위를 식별

  • 최적의 특성 값은 1) 텍스트 내의 형용사 수가 1보다 커야 하고, 2) 형용사의 평균 구체성이 2.0보다 커야 한다는 것을 보여주었습니다.

이러한 결과는 인터뷰 연구 결과와 일치하며, 프롬프트 개선을 위한 실질적인 영향을 가진 정량적인 근거를 제공

최적의 특성 값을 얻기 위해 우리는 구체성 점수가 높은 관련 형용사를 추가하는 간단한 방법을 채택했습니다.

5.5 Rubric for Automatic Prompt-Editing

  • 자동 프롬프트 편집을 위한 규칙을 Table 2
  • RePrompt의 프롬프트 편집 과정
    • 주어진 텍스트에서 먼저 각 단어의 품사(POS)를 라벨링하고, 명사, 동사 또는 형용사가 아닌 단어를 제거

    • 단어의 중요도를 계산하기 위해, 해당 단어의 CLIP 점수 (예: "friend")와

      감정 레이블이 추가된 전체 텍스트 (이 예시에서는 "My best friend will be going to school in another country for 4 years. Sad.")를 사용

    • 단어 중요도 순위를 사용하여 제거할 단어와 추가할 관련 단어를 결정 (years 제거)

    • ConceptNet 에서 상위 3개의 중요한 단어 ("friend", "going", "school")에 대한 관련 단어를 검색

    • 검색된 단어 중에서 형용사만 유지

    • 검색된 단어에 대해 단어의 중요도를 계산하고 (단계 A와 동일한 방법), 단어 구체성을 찾아서 (>2.0) 필요한 구체성을 가진 가장 중요한 세 단어를 유지

    • 우리는 감정 레이블을 추가하여 프롬프트 수정의 최종 출력을 완성

      ⇒ 요약하면, 모든 형용사와 동사를 유지하고, 하나의 명사를 제거했으며 (왜냐하면 #nouns > 3), 세 개의 형용사를 추가했으며 (왜냐하면 #adjs < 2), 감정 레이블을 추가했습니다.


6 EVALUATION

RQ3. RePrompt는 이미지 생성에서 감정적 표현을 개선하는 데 얼마나 효과적인가요?

6.1 Metrics and Conditions

  • 시뮬레이션 연구
    • Section 5.2에서와 동일한 정의를 따라 CLIP 점수를 사용하여 이미지-감정 조화 (IEA)와 이미지-텍스트 조화 (ITA)를 객관적으로 측정했습니다.
  • 사용자 평가 연구 실시
    • 다른 조건의 이미지에 대한 외부 검증자들의 IEA와 ITA 인식을 측정했습니다.
  • RePrompt를 다른 세 가지 프롬프트 편집 방법과 비교하여 평가
    • 원본 프롬프트
    • 수동으로 편집된 프롬프트
    • 자동 RePrompt
    • 단순히 원본 텍스트에 감정 레이블을 추가하는 단순 자동 텍스트 편집 방법인 Label Appended Prompt
  • DALL·E 2를 사용하여 이미지를 생성

6.2 Statistical Methods

  • 선형 혼합 효과 회귀 (linear mixed effects regression, LMER) 모델을 사용
  • 고정된 주 효과와 상호 작용 효과에 대한 ANOVA를 수행하고 특정한 차이에 대해서는 사후 대조 검정을 실시

6.3 Simulation Study

  • 이미지-감정 조화 (IEA) 점수
    • 세 가지 프롬프트 편집 방법 모두 원본 프롬프트보다 이미지-감정 조화 (IEA) 점수가 유의하게 높은 이미지를 생성했습니다.
    • RePrompt의 이미지가 다른 프롬프트의 이미지보다 유의하게 높은 점수를 얻었습니다. 이에 반해, Manual Edited는 Label Appended보다 낮은 점수를 얻었습니다.
  • 이미지-텍스트 조화 (ITA) CLIP 점수
    • Manual Edited와 RePrompt는 원본과 비교하여 이미지-텍스트 조화 (ITA) 점수가 유의하게 낮았으며, 이는 이러한 프롬프트가 원본 텍스트를 상당히 변경했음을 시사합니다
    • 그러나 Label Appended는 원본과 비교하여 유의하게 더 높은 ITA 점수를 얻었습니다
    • 감정 레이블이 원본 텍스트와 매우 관련이 있다는 것을 시사합니다.

6.4 Image Evaluation User Study

  • 시뮬레이션 연구에서는 계산적인 지표(CLIP Score)를 사용하여 이미지 품질을 측정했지만, 감정은 주관적이고 다양하기 때문에 사용자 평가가 필요합니다. 실험은 IEA(이미지-감정 정렬) 및 ITA(이미지-텍스트 정렬)를 기준으로 이미지 품질을 검증하기 위해 새로운 참가자를 초청하여 수행되었습니다.
  • 절차
    • 실험 목적 소개 및 연구에 대한 동의.
    • 영어 언어 능력을 평가하기 위한 4문항의 단어 연상 테스트
    • 15개의 텍스트 (무작위로 선택)와 해당하는 이미지 그룹을 평가
    • 인구통계학적 질문지
  • 참가자 및 데이터 수집
    • 721명의 참가자 중 197명이 선별되어 조사를 완료했으며, 이들은 Amazon Mechanical Turk에서 모집되었습니다.
    • 결과는 146개의 이미지 그룹에 대한 2955회의 평가로 나타났으며, 이미지-감정 정렬, 이미지-텍스트 정렬 및 텍스트-감정 정렬과 관련된 각각의 등급에 대한 평균 집단 간의 상관 관계가 요약되었습니다.
  • 평가 결과
    • RePrompt 메서드에서 생성된 이미지는 특히 부정적인 감정에 대해 높은 이미지-감정 정렬 등급을 얻었으며, ITA 등급에서도 원본 텍스트보다 높은 등급을 얻었습니다.
    • 그러나 결과의 해석에서는 몇 가지 주목할 만한 한계와 모순이 나타났으며, 향후 연구가 필요하다는 결론이 내려졌습니다.

7 SUMMARY OF RESULTS

  • RQ1
    • 일반인들은 감정적 표현에 관한 AI 생성 이미지를 어떻게 인식
      • 1) AI는 복잡하고 추상적인 텍스트보다 간단하고 구체적인 텍스트를 이해할 수 있었습니다
      • 2) AI는 일부 개념을 이해하지 못했습니다
      • 3) 객관적인 설명을 더 잘 이해했습니다
      • 4) AI가 실패할 때 정확하지 않았고 이해하기 어려울 때가 있었습니다.
    • 참가자들의 편집 전략
      • 1) 감정을 강조하기 위해 감정 단어나 문맥을 추가하거나 조정하는 것
      • 2) 문장을 삭제하거나 다시 정리하여 텍스트를 단순화하는 것
      • 3) 텍스트의 구체성을 높이는 것
      • 4) 자기 표현을 일인칭 관점에서 사진 설명을 하는 제3인칭 관점의 이미지로 변경하는 것
  • RQ2
    • 일반인의 편집 전략을 기반으로 직관적인 텍스트 특징을 선별
    • 기계 학습 모델을 훈련시켜 텍스트 특징을 사용하여 이미지 품질 점수를 예측
    • 훈련된 모델에 대한 모델 설명을 적용하여 텍스트 프롬프트를 자동으로 수정하는 루브릭을 생성
  • RQ3
    • RePrompt가 이미지 생성을 개선하는 데 효과적이며, 특히 부정적인 감정에 대해서는 IEA (이미지-감정 조화) 측면에서 향상되었다는 것을 시사
    • 그러나, 사용자 연구에서는 긍정적인 감정의 표현에 대한 차이를 인식하지 못했는데, 이는 인간의 긍정적 자극에 대한 민감도가 낮고, CLIP의 긍정적 감정 모델링 능력이 상대적으로 약할 수 있기 때문일 수 있습니다. ITA (이미지-텍스트 조화) 측면에서는 결과가 혼재되었습니다.

8 DISCUSSION

8.1 Design Implications and Limitations

  • 감정적인 텍스트-이미지 생성에 있어서 이미지-텍스트 조화 (ITA)의 CLIP 점수는 인간의 지각과 일치하지 않지만, 이미지-감정 조화 (IEA)의 CLIP 점수는 부정적인 감정에 대해서만 일치한다는 우리의 결과가 나왔습니다.
    • 부정적인 감정 (분노와 우울)을 가진 이미지가 긍정적인 감정 (행복과 평온)을 가진 이미지보다 인간의 검증자에 의해 더 정확하게 레이블링되었습니다.
    • 또 다른 이유는 CLIP가 세부적인 긍정적 감정을 잘 모델링하지 못할 수 있다는 것
  • CLIP와 텍스트-이미지 생성 모델에서의 감정 편향
    • 생성 모델을 훈련시키기 위한 감정 데이터셋의 부족이나 긍정적 감정의 세부 사항을 모델링하기 위한 잘 설계된 훈련 전략의 부재로 인한 것일 수 있습니다.
    • 텍스트와 이미지에 내재된 감정의 복잡성 (예: 하나의 이미지에 여러 감정이 표현되거나 문맥에 따라 감정이 변화하는 등)을 고려하여 편향을 줄이고 모델의 감수성을 개선하기 위해 정교한 데이터셋과 모델링이 필요합니다.
  • VQGAN-CLIP로 얻은 지식이 DALL·E 2의 이미지 생성에 전이될 수 있다
    • 루브릭은 VQGAN-CLIP로 생성된 이미지를 기반으로 한 프록시 모델의 모델 설명을 바탕으로 개발되었으며,
    • 확장성을 위해 수정된 프롬프트를 DALL·E 2로 적용하여 사용자 평가를 위한 이미지를 생성했습니다.
  • 설명 가능한 AI는 프롬프트 엔지니어링에 도움이 될 수 있습니다
  • Limitations on feature selection, modeling, and emotional expression measurement
    • 첫째로, 우리의 특징은 텍스트의 개별 단어를 기반으로 유도되었는데, 이는 구문과 의미 있는 청크를 분리시킬 수 있습니다. → n-gram, 감성 어휘, 종속성 파싱과 같이 더 정교하지만 이해하기 어려운 특징을 추가함으로써 우리의 접근 방식의 성능을 향상시킬 수 있을 것입니다.
    • 둘째로, 우리의 모델링은 텍스트의 의미만을 고려했으며, 스타일과 색상 주제와 같은 이미지 속성은 고려하지 않았습니다.
    • 셋째로, 우리는 주관적인 평가를 사용하여 이미지에서 감정적 표현의 인간의 지각을 측정했지만, 시각 자극에 대한 인간의 감정 반응을 평가하기 위해 여러 가지 측정 방법이 있음을 언급합니다.보다 엄격한 조사를 위해 심전도, 얼굴 심전도, 피부 전도도 변동성과 같은 측정 방법을 활용해야 합니다.

8.2 Generalization of RePrompt

  • 1) 우리 연구에서 생성된 루브릭을 다른 감정 데이터셋에 적용하는 것
    • VQGAN-CLIP로 유도한 루브릭이 DALL·E 2에서도 감정적 표현을 개선하는 데 효과적임을 시사
    • Twitter에서 수집한 다른 감정 텍스트 데이터셋에서 테스트를 진행
  • 2) RePrompt 파이프라인을 텍스트-이미지 생성 모델뿐만 아니라 다른 종류의 표현을 가진 생성 모델에 일반화하는 것
    • 특징 선별
    • 프록시 모델링
    • 모델 설명

8.3 Benefits, Potential Applications, and Future Work

  • 우리의 감정적 표현을 위한 이미지 사용 사례는 정신 건강을 위한 잠재적인 응용 분야에 대한 연구를 촉진
    • 텍스트-이미지 생성 모델은 일반인이 감정 표현을 위해 시각 예술을 만드는 임계값을 크게 낮추었으며, 제안된 RePrompt 방법은 생성 모델의 감정적 표현력을 향상시킬 수 있습니다
    • 특히 부정적 감정의 세부 사항에 대해서는 더욱 개선할 수 있습니다.
    • 따라서 RePrompt는 이미지 생성을 통한 감정 표현을 지원하는 데 사용될 수 있습니다.
  • 일반인이 개인의 경험에 대한 텍스트 설명을 사용하여 감정 표현 및 조절 (스트레스 감소를 위한 것 등)을 위해 개인화된 감정 이미지를 생성하는 데 어떻게 지원할 수 있는지 연구하는 것이 가치가 있습니다.
  • 자동으로 맥락적 이미지를 생성하여 표현적 쓰기를 향상시키는 것입니다.
    • 이미지는 글쓰기 과정에서 문맥을 제공함으로써 작가의 생리적 흥분과 사고를 증가시킬 수 있습니다.
    • 이는 자아 표현과 아이디어 발전을 지원할 수 있습니다.
    • 감정적 표현을 하는 사용자 경험에 대한 추가적인 연구를 요구하여 잠재적인 응용 분야를 실현하기를 제안합니다.

9 CONCLUSION

  • 텍스트-이미지 생성 모델의 텍스트 프롬프트를 자동으로 개선하여 이미지 생성의 의미적 정확성을 향상시키기 위한 RePrompt를 제안했습니다.
  • 먼저, 일반인이 AI가 생성한 이미지를 어떻게 인식하고 텍스트 프롬프트를 전략적으로 편집하는지 이해하기 위해 인터뷰 연구를 진행했습니다.
  • 참가자들의 프롬프트 편집 전략에서 영감을 받아 RePrompt 파이프라인을 개발하고, 설명 가능하고 자동화된 프롬프트 편집을 가능하게 하는 루브릭을 만들었습니다.
  • 이를 통해 생성 AI 모델의 이미지 생성에서 감정적 표현력을 개선하기 위해 RePrompt로 편집된 텍스트 프롬프트가 더 나은 이미지를 생성하도록 유도할 수 있음을 객관적 측정과 주관적 평가를 통해 검증했습니다.
  • 특히 부정적인 감정에 대해서는 더욱 개선된 결과를 얻을 수 있었습니다.
profile
01년생 석사~ing | Computer Science. HCI. AI. Design.

0개의 댓글