[paper-review] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

miws·2024년 7월 22일

LLM

목록 보기

7/11

Thought에 중점인 논문

1. 개요

주요 아이디어

LLM 출력 생성 시, Reasoning 과정을 같이 입력하면 결과가 좋다
모델 사이즈를 키우는 것은 수학, 상식, Reasoning에서 상승 X
큰 학습 데이터 없이 많은 Task를 수행할 수 있는 프롬프팅 접근

2. 설명 및 특징

Chain-of-Thought Prompting

목표
- LM에게 CoT 같은 능력을 부여
- CoT의 예시문이 few-shot 프롬프팅을 위한 예시문처럼 제공된다면 LLM이 CoT 가능할 것이다
특징
- 다단계 문제를 분해 가능
- 모델 동작에 대해 해석 가능하게 해주고 어떻게 답변에 도달하는지 보여주며 디버깅이 편리
- 인간의 언어를 통한 잠재적 문제 해결 능력이 있다
- 큰 언어 모델에서도 몇 번의 CoT로도 쉽게 유도 가능

3. 실험

다양한 제거 실험 진행
- 방정식만 작성 (답을 구하지 않고 식만 세운 예시)
  → 성능 향상에 큰 도움이 안된다
- 더 많은 계산을 소비 (문제 해결하는데 필요한 방정식의 문자수와 동일한 ... 만 출력)
  → 거의 동일한 성능을 보인다
- 답변 후 CoT
  → 준수한 성능을 보인다 (거의 동일)
산술 추론
- FT한 모델과 비슷한 성능 보인다
- 어려운 벤치마크에서도 SOTA 차지

4. 결과

모델 종류, 크기, 벤치마크 기준으로 결과를 평가
작은 모델에서는 CoT 효과 없다
PaLM 540B CoT가 3가지 벤치마크에서 다 Top
일반 상식에 관한 실험에서 모델 크기 키우면 기본 프롬프팅 성능이 올라가고
CoT로는 PaLM 540B이 가장 성능 좋았다
성능 향상 뿐만 아니라 추론 속도도 나아진다
특이하게 특정 Task에서 PaLM 540B CoT가 100% 성능 보임

5. 한계

CoT로 사람의 추론을 모방하지만 이것이 실제 '추론'인지에 대한 여부는 판별하지 않는다
example을 수동을 보충하는 비용은 최소화되지만 FT을 위한 비용은 부담
정답, 오답 둘 다 나올 수 있다
서비스하는데 비용이 크다 → 더 작은 모델에서도 성능이 잘 나와야 한다

이전 포스트

[paper-review] Open-Vocabulary Queryable Scene Representations for Real World Planning

다음 포스트

[paper-review] ReAct: Synergizing Reasoning and Acting in Language Models

0개의 댓글