jang_miws.log
로그인
jang_miws.log
로그인
[paper-review] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
miws
·
2024년 7월 22일
팔로우
0
LLM
목록 보기
7/11
Thought에 중점인 논문
1. 개요
주요 아이디어
LLM 출력 생성 시,
Reasoning 과정을 같이 입력하면 결과가 좋다
모델 사이즈를 키우는 것은
수학, 상식, Reasoning
에서 상승 X
큰 학습 데이터 없이 많은 Task를 수행
할 수 있는 프롬프팅 접근
2. 설명 및 특징
Chain-of-Thought Prompting
목표
LM에게 CoT 같은 능력을 부여
CoT의 예시문이 few-shot 프롬프팅을 위한 예시문처럼 제공된다면 LLM이 CoT 가능할 것이다
특징
다단계 문제를 분해 가능
모델 동작에 대해 해석 가능하게 해주고 어떻게 답변에 도달하는지 보여주며 디버깅이 편리
인간의 언어를 통한 잠재적 문제 해결 능력이 있다
큰 언어 모델에서도 몇 번의 CoT로도 쉽게 유도 가능
3. 실험
다양한 제거 실험 진행
방정식만 작성 (답을 구하지 않고 식만 세운 예시)
→ 성능 향상에 큰 도움이 안된다
더 많은 계산을 소비 (문제 해결하는데 필요한 방정식의 문자수와 동일한 ... 만 출력)
→ 거의 동일한 성능을 보인다
답변 후 CoT
→ 준수한 성능을 보인다 (거의 동일)
산술 추론
FT한 모델과 비슷한 성능 보인다
어려운 벤치마크에서도 SOTA 차지
4. 결과
모델 종류, 크기, 벤치마크 기준으로 결과를 평가
작은 모델에서는 CoT 효과 없다
PaLM 540B CoT
가 3가지 벤치마크에서 다 Top
일반 상식
에 관한 실험에서 모델 크기 키우면 기본 프롬프팅 성능이 올라가고
CoT
로는 PaLM 540B이 가장 성능 좋았다
성능 향상 뿐만 아니라
추론 속도
도 나아진다
특이하게 특정 Task에서 PaLM 540B CoT가 100% 성능 보임
5. 한계
CoT로 사람의 추론을 모방하지만 이것이 실제 '추론'인지에 대한 여부는 판별하지 않는다
example을 수동을 보충하는 비용은 최소화되지만 FT을 위한 비용은 부담
정답, 오답 둘 다 나올 수 있다
서비스하는데 비용이 크다 → 더 작은 모델에서도 성능이 잘 나와야 한다
miws
팔로우
이전 포스트
[paper-review] Open-Vocabulary Queryable Scene Representations for Real World Planning
다음 포스트
[paper-review] ReAct: Synergizing Reasoning and Acting in Language Models
0개의 댓글
댓글 작성