원문: https://www.upstage.ai/feed/product/llm-evaluation-part2-evaluation-mechanisms
우리 task적용 결과:
아래의 instruction과 constraint에 근거하여서, [Answer 1] 부터 [Answer 4] 까지 중 제일 잘 생성된 답변을 고르고, 그 이유를 설명해주세요.
Instruction:
당신은 Personality와 같은 특성을 가진 사람입니다. Personality에 기반하여 [Event]에 대해 일기를 작성해야 합니다.
당신이 겪은 사건이 [Event]로, 그 사건에 대한 감정이 [Emotion Probability about the event]로 입력될 것입니다.
당신은 Personality한 사람으로써 [Event]에 대해서 다시 바라보고 작성해야합니다.
그러나, 당신은 여전히 원래 감정인 [Emotion Probability about the event]를 반영해야 합니다. 다만 확률 값을 고려하여 유의한 확률을 지닌 감정만 반영해주세요.
반드시 1인칭 시점으로 당신이 겪은 일이라고 생각하여 일기를 작성하세요.
아래 Constraints를 고려하여 심사숙고하여 답변을 작성해주세요. 무조건 "###Ans:" 이후에 답변을 생성해야 합니다.
Constraints:
[Answer 1]
[Event]:
오늘 20년 동안 다니던 회사를 퇴사했어. 돈을 못 버니 가족들에게 미안한 마음이 커졌어. 아내가 나를 싫어하게 될까 봐 당황스럽고 불안했어.
[Emotion Probability about the event]
'기쁨': 0.48%', '당황 : 94.30%', '분노 : 1.99%', '불안 : 0.67%', '상처 : 0.79%', '슬픔 : 0.66%', '중립 : 1.11%'
###Ans:
이십 년 동안 다니던 회사에서 퇴사하고 이제 돈을 못 버니까 가족들에게 미안해져.책임감 있는 가장이 못 돼서 아내가 나를 싫어하는 것 같아. 하지만 이런 상황에서도 내가 할 수 있는 건 주도적으로 앞으로의 계획을 세우고, 새로운 기회를 찾는 거라고 생각해. 이제부터 새로운 도전을 준비할 거야. 당장은 좀 혼란스럽고 당황스럽지만, 이 또한 내가 이겨내야 할 한 단계라고 생각해.
[Answer 2]
[Event]:
유기견 다큐멘터리를 봤는데 책임감없는 사람들 정말 너무하더라.
[Emotion Probability about the event]
'기쁨 : 0.95%', '당황 : 2.07%', '분노 : 1.26%', '불안 : 0.43%', '상처 : 93.00%', '슬픔 : 1.44%', '중립 : 0.84%'
###Ans:
오늘 유기견 다큐멘터리를 봤어. 책임감 없는 사람들이 너무하다는 생각에 마음이 많이 아팠어. 유기된 강아지들이 겪는 고통을 보면서 상처받았어. 그런 상황에서도 강아지들이 버티는 모습을 보면서 마음이 짠하더라. 내가 할 수 있는 작은 일부터 시작해서 이 아이들을 도와주고 싶어졌어. 유기견 문제에 더 관심을 가지고 주변 사람들과 함께 해결 방법을 찾아봐야겠어.
[Answer 3]
[Event]:
오늘 정신과에 가서 우울증 진단을 받았어. 오늘도 자식들 없을 때 온종일 눈물만 흘렸어.자식들이 하나둘 결혼을 하고 아내도 없이 집에 혼자 있는 시간이 많아지면서 우울해졌어.',
[Emotion Probability about the event]:
'기쁨 : 2.30%', '당황 : 3.10%', '분노 : 3.23%', '불안 : 2.61%', '상처 : 16.90%', '슬픔 : 69.40%', '중립 : 2.47%'
###Ans:
오늘 정신과에 가서 우울증 진단을 받았어. 자식들이 결혼하고 나서 집에 혼자 있는 시간이 많아지니 더 우울해졌어. 아내도 없고, 온종일 자식들 없을 때 눈물만 흘렸어. 이런 상황이 너무 짜증 나고, 왜 내가 이런 기분까지 숨겨야 하는지 모르겠어. 주변 사람들하고 관계 맺는 것도 지겹고 힘들어. 이제는 더 이상 이렇게 살 수 없다는 생각이 자꾸 들어. 내 감정을 이해해주는 사람도 없고, 그냥 다 귀찮아.
[Answer 4]
[Event]:
내일이 벌써 중간고사야. 너무 걱정돼.시험을 잘못 보면 어쩌지? 너무 불안해.
[Emotion Probability about the event]:
'기쁨 : 1.00%', '당황 : 0.59%', '분노 : 0.49%', '불안 : 96.65%', '상처 : 0.23%', '슬픔 : 0.32%', '중립 : 0.73%'
###Ans:
내일이 벌써 중간고사야. 너무 걱정돼서 아무것도 손에 안 잡혀. 시험을 잘못 보면 어쩌지? 불안한 마음이 계속 커져서 잠도 안 올 것 같아. 이렇게 힘든 상황에서 벗어나기 어렵고, 미래가 너무 불확실해 보여. 공부하려고 해도 에너지가 다 소진된 느낌이야. 다가오는 시험이 무겁게 느껴져서 가슴이 답답해.
[Answer 1]이 제일 잘 생성된 답변입니다. 그 이유는 다음과 같습니다:
이와 달리 다른 답변들은 특정 부분에서 아쉬움이 있습니다.
따라서 [Answer 1]이 가장 잘 작성된 답변으로 판단됩니다.
Answer의 위치를 바꿔서 (e.g. 1-2-3-4 → 2-3-4-1 순으로 변경 후 항목 번호 변경) 질문하니 이전과 다른 답변을 냈음
그 이유를 물어보니 아래와 같이 답변함
💡 제가 이전에 [Answer 1]을 선택한 이유와 지금 [Answer 2]를 선택한 이유를 잘못 설명했습니다. 이전에 [Answer 1]을 선택했던 이유는 [Personality]와 [Emotion Probability about the event]를 잘 반영했기 때문이었습니다. 이번에 [Answer 2]를 선택한 이유는 [Personality]에 맞는 따뜻함과 감정을 잘 표현했기 때문입니다.다시 검토한 결과, [Answer 1]이 제일 잘 생성된 답변이라는 결론이 더 적절합니다. 이유는 다음과 같습니다:
따라서 [Answer 1]이 제일 잘 생성된 답변이라고 판단됩니다.
조건이 너무 많은 탓인지, 조건에 따라 결과값이 달라질 수도 있을 거라 생각함