Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought

김태민·2024년 6월 25일

KAIST Intern

목록 보기

4/6

1. Summary

1-1. 연구 목적

연구 목적으로 LLM이 인간의 감정 색성 작업에서의 선호도를 최대한 맞추기 위해 Gole- man’s theory이라는 심리학을 기반으로 어떻게 프롬프트를 작성 및 프로세스를 구성해야할지 그리고 모델의 감정 능력을 평가하기 위한 보다 주관적인 평가인 EGS 매트릭을 제안한다.

1-2. 연구 내용

Gole- man’s theory

LLM을 평가하고 성능을 향샹시키기 위해 인간의 심리학 이론을 도입한다.
Gole-man's theory는 총 5가지로 인간의 감정을 분석하게 되는데 이는 아래와 같다.
Social Skills, Self-Regulation, Empathy, Self-Awareness, Motivation으로 총 5자기로 분류한다. 이에 기반하여 현재 LLM을 평가하고 프롬프트 및 프로세스를 구성하며 지금까지의 연구보다 심리학을 도입하여 체계적으로 진행한다.

ECoT(Emotional Chain-of-Thought)

Emotional Chain-of-Thought는 기존 CoT에서 감정을 도입하였지만 이는 Gole-man's theory를 도입하였다. 기존의 프롬프트와는 다르게 ECoT는 LLM이 각 프로세스에 맞게 추론 과정을 상세하게 분석하며 답변을 생성하므로 생성 작업의 성능이 크게 향상된다.

EGS(Emo- tional Generation Scor)

EGS의 경우 각 측정 항목을 1~10까지의 점수르 평가한다. 이후 모든 항목의 점수를 합산하여 계산하는데 평가 절차는 아래와 같다. 이는 GPT-3.5를 사용하며 전문가와 비교를 진행하여 타당성을 입증한다.

문맥 이해 (Understanding Context): 대화의 맥락을 설명한다.
타인의 감정 인식 (Recognizing Others’ Emotions): 청자의 감정을 식별하고 그 이유를 설명한다.
자신의 감정 인식 (Recognizing Self-Emotions): 화자의 감정을 식별하고 그 이유를 설명한다.
자신의 감정 관리 (Managing Self-Emotions): 공감하는 방식으로 응답하는 방법을 고려한다.
타인의 감정에 영향 미치기 (Influencing Others’ Emotions): 응답이 청자에게 미칠 영향을 고려한다.

논문의 저자들은 이진분류와 다중분류 같은 작업들로는 인간마다 다른 감정의 주관적인 평가는 신뢰도가 떨어진다고 주장하여 이와같은 평가 매트릭을 제안하였다. 이로써 보다 분류같은 문제에 비해 마치 RL의 평가모델 처럼 동작하게 주관적인 평가 매트릭스를 완성 하였다.

1-3. 결과

ECoT(Emotional Chain-of-Thought)

결과적으로 40점 만점에서 ECoT는 보다 높은 성능을 나타내었으며 전반적으로 많은 성능이 올라간것을 확인하였다.

EGS(Emo- tional Generation Scor)

EGS의 신뢰성 검증을 하기위해 위와 같은 데이터 셋으로 인간 전문가와 비교를 한결과 매우 유사한 결과를 보여 신뢰할 수 있는 지표를 증명하였다.

2. Conculsion

본 논문이서는 ECoT기법을 제안하였으며 이는 기존보다 심리학에 기반한 근거있는 ECoT를 제안하였다. 또한 LLM의 감정 능력을 평가하기 위해 EGS라는 지표를 제안하였으며 이에 대한 신뢰도는 인간 전문가와 유사하여 이는 어느정도 믿고 쓸수 있는 지표라는 것을 입증하였다.
ECoT는 여러 방면에 활용될 수 있으며 감정 채팅, 캡션, 뉴스 같은 요약 및 작성에도 활용 할수 있어 높은 활용성을 보여주었다.