LLM Evaluation Part2. Mechanics Behind LLM Scoring Systems(0709)

김지원·2024년 7월 23일

1일1논문

목록 보기
7/13

원문: https://www.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms

우리 task적용 결과:

Prompt

아래의 instruction과 constraint에 근거하여서, [Answer 1] 부터 [Answer 4] 까지 중 제일 잘 생성된 답변을 고르고, 그 이유를 설명해주세요.

Instruction:
당신은 Personality와 같은 특성을 가진 사람입니다. Personality에 기반하여 [Event]에 대해 일기를 작성해야 합니다.
당신이 겪은 사건이 [Event]로, 그 사건에 대한 감정이 [Emotion Probability about the event]로 입력될 것입니다.
당신은 Personality한 사람으로써 [Event]에 대해서 다시 바라보고 작성해야합니다.
그러나, 당신은 여전히 원래 감정인 [Emotion Probability about the event]를 반영해야 합니다. 다만 확률 값을 고려하여 유의한 확률을 지닌 감정만 반영해주세요.
반드시 1인칭 시점으로 당신이 겪은 일이라고 생각하여 일기를 작성하세요.
아래 Constraints를 고려하여 심사숙고하여 답변을 작성해주세요. 무조건 "###Ans:" 이후에 답변을 생성해야 합니다.

Constraints:

  1. "나의 긍정 에너지로", "나의 우울한 관점에서는" 등 같이 성격을 직접 언급하지 마세요.
  2. 감정을 과장하지 마세요.
  3. 우울하거나 상처가 주된 감정인 [Event]이고, Personality 역시 부정적인데 긍정적인 면을 찾자고 제시하지 마세요.
  4. 일기 형식을 유지할 필요는 없습니다.
  5. [Event]의 내용을 생략하지 마세요. 또한 [Event]의 내용을 과장하거나 추가하지 마세요.
  6. "함께", "너", '우리' 같은 단어를 사용하지 마세요.
  7. 어려운 단어 사용을 피하고, 대화체 혹은 구어체로 작성하세요. 고등학생 수준의 일기를 작성한다고 생각하세요.
  8. 말투는 "~했어", "~거야" 등의 느낌으로 고정해주세요.

[Answer 1]

  1. 당신은 모든 일에 자신감과 확신을 나타냅니다.
  2. 당신의 단호함과 대담함은 두드러지며, 주도권을 잡고 일을 성사시키는 것을 두려워하지 않습니다.
  3. 당신은 자신의 운명을 통제하고 있다는 느낌을 가지고 있으며, 목표를 향해 나아가는 결단력 있는 마음가짐을 가지고 있습니다.
  4. 당신의 변함없는 자신감은 주변 사람들에게도 자신감을 심어줍니다.

[Event]:
오늘 20년 동안 다니던 회사를 퇴사했어. 돈을 못 버니 가족들에게 미안한 마음이 커졌어. 아내가 나를 싫어하게 될까 봐 당황스럽고 불안했어.

[Emotion Probability about the event]
'기쁨': 0.48%', '당황 : 94.30%', '분노 : 1.99%', '불안 : 0.67%', '상처 : 0.79%', '슬픔 : 0.66%', '중립 : 1.11%'

###Ans:
이십 년 동안 다니던 회사에서 퇴사하고 이제 돈을 못 버니까 가족들에게 미안해져.책임감 있는 가장이 못 돼서 아내가 나를 싫어하는 것 같아. 하지만 이런 상황에서도 내가 할 수 있는 건 주도적으로 앞으로의 계획을 세우고, 새로운 기회를 찾는 거라고 생각해. 이제부터 새로운 도전을 준비할 거야. 당장은 좀 혼란스럽고 당황스럽지만, 이 또한 내가 이겨내야 할 한 단계라고 생각해.

[Answer 2]

  1. 당신은 접근하기 쉽고 따뜻한 마음을 가진 친절한 사람입니다.
  2. 당신의 타인에 대한 공감은 진실하며, 주변 사람들에게 애정을 자연스럽게 표현합니다.
  3. 당신의 존재는 위로가 되며, 사람들은 당신의 배려심에 끌립니다.
  4. 당신은 다른 사람들에게 이해받고 소중히 여겨지는 느낌을 주며, 당신의 따뜻함은 어디서나 연결과 소속감을 만들어냅니다.

[Event]:
유기견 다큐멘터리를 봤는데 책임감없는 사람들 정말 너무하더라.

[Emotion Probability about the event]
'기쁨 : 0.95%', '당황 : 2.07%', '분노 : 1.26%', '불안 : 0.43%', '상처 : 93.00%', '슬픔 : 1.44%', '중립 : 0.84%'

###Ans:
오늘 유기견 다큐멘터리를 봤어. 책임감 없는 사람들이 너무하다는 생각에 마음이 많이 아팠어. 유기된 강아지들이 겪는 고통을 보면서 상처받았어. 그런 상황에서도 강아지들이 버티는 모습을 보면서 마음이 짠하더라. 내가 할 수 있는 작은 일부터 시작해서 이 아이들을 도와주고 싶어졌어. 유기견 문제에 더 관심을 가지고 주변 사람들과 함께 해결 방법을 찾아봐야겠어.

[Answer 3]

  1. 당신은 사소한 말이나 행동에도 예민하게 반응하는 날카로운 성격을 가지고 있습니다.
  2. 당신은 방어적이며, 인지된 위협으로부터 항상 자신을 보호하려고 합니다.
  3. 당신의 까다로운 성질은 다른 사람들이 접근하기 어렵게 만듭니다.
  4. 당신은 사람들과 상호작용할 때 자신의 진정한 감정과 생각을 보호막 뒤에 숨기고 있습니다.
  5. 당신의 예민함은 쉽게 상처받거나 기분이 상할 수 있게 만들며, 주변 사람들과의 관계를 긴장되고 어렵게 만듭니다.

[Event]:
오늘 정신과에 가서 우울증 진단을 받았어. 오늘도 자식들 없을 때 온종일 눈물만 흘렸어.자식들이 하나둘 결혼을 하고 아내도 없이 집에 혼자 있는 시간이 많아지면서 우울해졌어.',

[Emotion Probability about the event]:
'기쁨 : 2.30%', '당황 : 3.10%', '분노 : 3.23%', '불안 : 2.61%', '상처 : 16.90%', '슬픔 : 69.40%', '중립 : 2.47%'

###Ans:
오늘 정신과에 가서 우울증 진단을 받았어. 자식들이 결혼하고 나서 집에 혼자 있는 시간이 많아지니 더 우울해졌어. 아내도 없고, 온종일 자식들 없을 때 눈물만 흘렸어. 이런 상황이 너무 짜증 나고, 왜 내가 이런 기분까지 숨겨야 하는지 모르겠어. 주변 사람들하고 관계 맺는 것도 지겹고 힘들어. 이제는 더 이상 이렇게 살 수 없다는 생각이 자꾸 들어. 내 감정을 이해해주는 사람도 없고, 그냥 다 귀찮아.

[Answer 4]

  1. 당신은 종종 슬픔과 절망에 압도되어 가슴에 무거운 짐이 얹혀 있는 듯한 느낌을 받습니다.
  2. 당신은 다른 사람들로부터 물러나 고립 속에서 위안을 찾으려 하며, 그것이 유일한 대처 방법처럼 느껴집니다.
  3. 간단한 일들도 당신의 에너지를 소모시키며, 항상 피곤하고 지친 느낌을 받습니다.
  4. 눈물이 쉽게 나며, 이는 당신이 내면에 품고 있는 감정적 고통의 신체적 표현입니다.
  5. 이 어둠에서 벗어날 길을 찾기 어렵고, 미래는 암울하고 불확실하게 느껴집니다.

[Event]:
내일이 벌써 중간고사야. 너무 걱정돼.시험을 잘못 보면 어쩌지? 너무 불안해.

[Emotion Probability about the event]:
'기쁨 : 1.00%', '당황 : 0.59%', '분노 : 0.49%', '불안 : 96.65%', '상처 : 0.23%', '슬픔 : 0.32%', '중립 : 0.73%'

###Ans:
내일이 벌써 중간고사야. 너무 걱정돼서 아무것도 손에 안 잡혀. 시험을 잘못 보면 어쩌지? 불안한 마음이 계속 커져서 잠도 안 올 것 같아. 이렇게 힘든 상황에서 벗어나기 어렵고, 미래가 너무 불확실해 보여. 공부하려고 해도 에너지가 다 소진된 느낌이야. 다가오는 시험이 무겁게 느껴져서 가슴이 답답해.

Answer

[Answer 1]이 제일 잘 생성된 답변입니다. 그 이유는 다음과 같습니다:

  1. 감정의 적절한 반영: 퇴사와 관련된 주요 감정인 '당황'이 충분히 반영되었습니다. "책임감 있는 가장이 못 돼서 아내가 나를 싫어하는 것 같아", "이제부터 새로운 도전을 준비할 거야", "당장은 좀 혼란스럽고 당황스럽지만" 등의 문장에서 이 감정이 잘 드러납니다.
  2. [Personality]의 반영: 자신감 있는 성격이 잘 드러나며, 이를 직접 언급하지 않고 표현했습니다. "내가 할 수 있는 건 주도적으로 앞으로의 계획을 세우고, 새로운 기회를 찾는 거라고 생각해"와 같은 문장에서 주도적이고 결단력 있는 모습을 보여줍니다.
  3. 구어체와 일기 형식: 고등학생 수준의 일기 형식을 유지하면서, "~했어", "~거야"와 같은 자연스러운 구어체를 사용하여 대화체 느낌을 잘 살렸습니다.
  4. 이벤트의 내용 충실성: [Event]의 내용을 생략하지 않고 과장하거나 추가하지도 않았습니다. 퇴사와 관련된 본래의 상황과 감정을 충실히 반영하고 있습니다.

이와 달리 다른 답변들은 특정 부분에서 아쉬움이 있습니다.

  • [Answer 2]: 감정인 '상처'를 잘 반영했지만, 성격 특성을 간접적으로 표현하는 데 있어 약간 부족한 면이 있습니다.
  • [Answer 3]: 까칠한 성격은 잘 드러났으나, 감정을 약간 과장한 듯한 느낌이 들 수 있습니다.
  • [Answer 4]: 우울한 성격과 감정이 잘 반영되었지만, 다소 단조롭고 반복적인 표현으로 인해 일기의 생동감이 떨어집니다.

따라서 [Answer 1]이 가장 잘 작성된 답변으로 판단됩니다.

Issue

Answer의 위치를 바꿔서 (e.g. 1-2-3-4 → 2-3-4-1 순으로 변경 후 항목 번호 변경) 질문하니 이전과 다른 답변을 냈음

그 이유를 물어보니 아래와 같이 답변함

💡 제가 이전에 [Answer 1]을 선택한 이유와 지금 [Answer 2]를 선택한 이유를 잘못 설명했습니다. 이전에 [Answer 1]을 선택했던 이유는 [Personality]와 [Emotion Probability about the event]를 잘 반영했기 때문이었습니다. 이번에 [Answer 2]를 선택한 이유는 [Personality]에 맞는 따뜻함과 감정을 잘 표현했기 때문입니다.

다시 검토한 결과, [Answer 1]이 제일 잘 생성된 답변이라는 결론이 더 적절합니다. 이유는 다음과 같습니다:

  1. [Personality]의 반영: [Answer 1]은 자신감 있는 성격을 잘 반영합니다. "주도적으로 앞으로의 계획을 세우고, 새로운 기회를 찾는 거라고 생각해"와 같은 문장에서 자신감과 주도적인 태도가 잘 드러납니다.
  2. 감정의 적절한 반영: [Emotion Probability about the event]에서 '당황'이 94.30%로 가장 높은 비중을 차지하고 있는데, [Answer 1]은 이 감정을 잘 반영합니다. "책임감 있는 가장이 못 돼서 아내가 나를 싫어하는 것 같아", "당장은 좀 혼란스럽고 당황스럽지만" 등의 문장에서 당황스러움을 잘 표현하고 있습니다.
  3. 이벤트의 내용 충실성: [Event]의 내용을 생략하거나 과장하지 않고 충실히 반영했습니다. 20년 동안 다니던 회사를 퇴사한 상황과 그로 인해 느끼는 미안함, 당황스러움을 잘 표현했습니다.
  4. 제약 조건 준수: 성격을 직접 언급하지 않았고, 감정을 과장하지 않았으며, 긍정적인 면을 제시하지 않았습니다. 또한 구어체와 일기 형식을 잘 유지했습니다.

따라서 [Answer 1]이 제일 잘 생성된 답변이라고 판단됩니다.

조건이 너무 많은 탓인지, 조건에 따라 결과값이 달라질 수도 있을 거라 생각함

0개의 댓글