[paper-review] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

miws·2024년 7월 22일

LLM

목록 보기
7/11

Thought에 중점인 논문


1. 개요

  • 주요 아이디어

    LLM 출력 생성 시, Reasoning 과정을 같이 입력하면 결과가 좋다

  • 모델 사이즈를 키우는 것은 수학, 상식, Reasoning에서 상승 X
  • 큰 학습 데이터 없이 많은 Task를 수행할 수 있는 프롬프팅 접근

2. 설명 및 특징

Chain-of-Thought Prompting

  • 목표
    • LM에게 CoT 같은 능력을 부여
    • CoT의 예시문이 few-shot 프롬프팅을 위한 예시문처럼 제공된다면 LLM이 CoT 가능할 것이다

  • 특징
    • 다단계 문제를 분해 가능
    • 모델 동작에 대해 해석 가능하게 해주고 어떻게 답변에 도달하는지 보여주며 디버깅이 편리
    • 인간의 언어를 통한 잠재적 문제 해결 능력이 있다
    • 큰 언어 모델에서도 몇 번의 CoT로도 쉽게 유도 가능

3. 실험

  • 다양한 제거 실험 진행
    • 방정식만 작성 (답을 구하지 않고 식만 세운 예시)
      → 성능 향상에 큰 도움이 안된다

    • 더 많은 계산을 소비 (문제 해결하는데 필요한 방정식의 문자수와 동일한 ... 만 출력)
      → 거의 동일한 성능을 보인다

    • 답변 후 CoT
      → 준수한 성능을 보인다 (거의 동일)

  • 산술 추론
    • FT한 모델과 비슷한 성능 보인다
    • 어려운 벤치마크에서도 SOTA 차지

4. 결과

  • 모델 종류, 크기, 벤치마크 기준으로 결과를 평가
  • 작은 모델에서는 CoT 효과 없다
  • PaLM 540B CoT가 3가지 벤치마크에서 다 Top
  • 일반 상식에 관한 실험에서 모델 크기 키우면 기본 프롬프팅 성능이 올라가고
    CoT로는 PaLM 540B이 가장 성능 좋았다
  • 성능 향상 뿐만 아니라 추론 속도도 나아진다
  • 특이하게 특정 Task에서 PaLM 540B CoT가 100% 성능 보임

5. 한계

  • CoT로 사람의 추론을 모방하지만 이것이 실제 '추론'인지에 대한 여부는 판별하지 않는다
  • example을 수동을 보충하는 비용은 최소화되지만 FT을 위한 비용은 부담
  • 정답, 오답 둘 다 나올 수 있다
  • 서비스하는데 비용이 크다 → 더 작은 모델에서도 성능이 잘 나와야 한다

0개의 댓글