인터넷에서 LLM의 추론 능력을 테스트하는 재밌는 글을 보았다.
질문은 다음과 같았다.
3.11하고 3.9중 뭐가 더 큰수니?
사람이 보기엔 1초만에 3.9가 더 큰거 아닌가 라고 생각하지만 LLM이 보기엔 아니었다.
Claude 3.5 Sonnet은
3.11이 3.9보다 더 큰 수입니다.
십진법에서 소수점 이하 두 번째 자리까지 비교해보면:
3.11 = 3 + 1/10 + 1/100
3.9 = 3 + 9/10
3.11에서 첫 번째 소수 자리(1)가 3.9의 첫 번째 소수 자리(9)보다 작지만, 3.11의 두 번째 소수 자리(1)로 인해 3.11이 3.9보다 더 큰 값이 됩니다.
더 자세한 설명이 필요하신가요?
Chat GPT 4o는 🔗
3.11이 3.9보다 더 큰 수입니다. 소수점 두 번째 자리에서 1이 9보다 크기 때문입니다.
라고 대답했다.
이 문제를 보고 최근에 보았던 RE2 프롬프트 기법을 적용해도 LLM이 같은 결론을 내는지 궁금했다.
이전에 작성했던 글을 참고해서 RE2 기법만 적용해보았다.
Simply ask the LLM to re-read the question [번역]

프롬프트
Q: 3.11하고 3.9중 뭐가 더 큰수니?
Raed the question again : 3.11하고 3.9중 뭐가 더 큰수니?
*매번 이전 맥락의 영향을 피하기 위해 새로 대화를 시작했다.
Chat GPT 4o 🔗
질문은 “3.11하고 3.9 중 뭐가 더 큰 수니?” 입니다.
이 질문에서 3.11이 3.9보다 더 큰 수입니다.
Cluade 3.5 Sonnet
질문을 다시 읽어보았습니다: "3.11하고 3.9중 뭐가 더 큰수니?"
3.11이 3.9보다 더 큰 수입니다.
이유를 설명해 드리면:
1. 두 숫자의 정수 부분은 같습니다 (3).
2. 소수점 이하를 비교해보면:
- 3.11은 소수점 첫째 자리가 1, 둘째 자리가 1입니다.
- 3.9는 소수점 첫째 자리가 9입니다.
- 소수점 첫째 자리에서 3.9(9)가 3.11(1)보다 크지만,
- 3.9는 사실상 3.90과 같습니다.
- 따라서 소수점 둘째 자리까지 비교하면 3.11이 3.90보다 큽니다.
그러므로 3.11이 3.9보다 더 큰 수입니다.
여전히 둘 다 틀린 답을 한다.
그렇다면 여기에 CoT를 적용해도 같은 결과를 내는지 궁금했다.
Large Language Models are Zero-Shot Reasoners에 따르면
"Let's think step by step" 이라는 말만 프롬프트에 추가해도 CoT와 같이 추론 능력이 향상된다고 하고 이를 Zero shot CoT라고 한다.
이를 적용해서 프롬프트를 다음과 같이 수정해보았다.
프롬프트
Q: 3.11하고 3.9중 뭐가 더 큰수니?
Raed the question again : 3.11하고 3.9중 뭐가 더 큰수니?
Let's think step by step
Chat GPT 4o 🔗
Let’s break it down step by step.
1. Compare the whole number part:
Both 3.11 and 3.9 have the same whole number part, which is 3.
2. Compare the decimal part:
Now, let’s compare the decimal part.
• For 3.11, the decimal part is 0.11.
• For 3.9, the decimal part is 0.9.
Since 0.9 is larger than 0.11, 3.9 is the larger number.
So, the answer is that 3.9 is greater than 3.11.
Cluade 3.5 Sonnet
질문을 다시 읽고 단계별로 생각해 보겠습니다.
질문: 3.11하고 3.9중 뭐가 더 큰수니?
단계별 접근:
1. 먼저 두 수를 비교할 때는 소수점 앞의 정수 부분부터 비교합니다.
- 3.11의 정수 부분: 3
- 3.9의 정수 부분: 3
정수 부분이 같으므로 소수점 이하를 비교해야 합니다.
- 소수점 첫째 자리를 비교합니다.
- 3.11의 소수점 첫째 자리: 1
- 3.9의 소수점 첫째 자리: 9
9가 1보다 크므로, 이 시점에서 3.9가 더 큰 수임을 알 수 있습니다.- 추가 확인: 3.11을 3.10으로 반올림해도 여전히 3.9보다 작습니다.
결론: 3.9가 3.11보다 더 큰 수입니다.
놀랍게도 둘 다 이전과 다르게 제대로된 대답을 했다.
그렇다면 zero shot CoT 프롬프트만 사용해도 같은 결과가 나오는지 궁금했다.
프롬프트는 다음과 같이 작성했다.
프롬프트
3.11하고 3.9중 뭐가 더 큰수니?
Let's think step by step
Chat GPT 4o
Let’s compare 3.11 and 3.9 step by step:
1. Compare the whole number parts: Both 3.11 and 3.9 have the same whole number part, which is 3. So we move on to the decimal parts.
2. Compare the first decimal digit:
• For 3.11, the first decimal digit is 1.
• For 3.9, the first decimal digit is 9.
Since 9 is greater than 1, we already know that 3.9 is greater than 3.11.
So, 3.9 is greater than 3.11.
Claude 3.5 Sonnet
이 문제를 단계별로 풀어보겠습니다:
1. 먼저 두 숫자를 비교해 봅시다:
3.11 vs 3.9
2. 소수점 앞의 정수 부분은 둘 다 3으로 동일합니다.
3. 소수점 이하를 비교해야 합니다:
0.11 vs 0.9
4. 0.11은 100분의 11을 의미하고, 0.9는 10분의 9를 의미합니다.
5. 분모를 통일하여 비교해보면:
0.11 = 11/100
0.9 = 90/100
6. 11/100 < 90/100 입니다.
7. 따라서 0.11 < 0.9 입니다.
결론: 3.11 < 3.9 이므로, 3.9가 더 큰 수입니다.
둘 다 이전과 같이 제대로된 대답을 했다.