
LLM 자체에는 생각하는 능력이 없다.
LLM 또한 결국 Auto-Regressive Model이다.
즉, 단순히 다음 단어를 맞추는 모델이라는 것.
그렇다면 아예 생각을 못하는 것일까?
Fine-tuned 모델 보다 우수한 성능을 보이기도 한다.Zero-Shot Chain-of-Thought
Zero-shot CoT는 naive zero-shot 보다 다양한 분야에서 우월한 정확도를 보이는데, 특히 쉬운 문제보다 복잡한 문제에서 더욱 두각을 드러낸다.Few-shot CoT로 여러 예시를 생성한 후에 해당 예시로 Few-shot CoT를 수행하는 경우 정확도가 상승한다.
Reasoning extraction을 위한 Prompt의 경우 그 이후에 이유가 나오는 경우에만 효과가 있다. 의미가 없거나 잘못 지시를 전달하는 경우에 효과가 없다.
즉 Reasoning 과정에서 치명적인 실수는 추론 결과를 완전히 달라지게 하는데, 이러한 실수는
Greedy decoing을 통한 생성 과정에서 알아낼 방법이 없다.방법이 없나?
있다.Self-consistency
# CoT 방식
def calculate_total(items):
return sum(item.price * item.quantity for item in items)
# Least-to-Most 방식
def calculate_total(items):
# 1. 각 아이템의 개별 가격 계산
item_totals = []
for item in items:
single_total = item.price * item.quantity
item_totals.append(single_total)
# 2. 전체 합계 계산
final_total = sum(item_totals)
return final_total