chain-of-thought prompting에서 사용되는 greedy decoding을 대체하기 위해 self-consistency(정답에 도달하는 추론 과정을 여러 개를 생각함)를 제안하여 추론 능력을 향상 시킴.

Greedy decode 대신 Sample-and-marginalize를 제안.
self-consistency는 비지도 학습 방식이며, pre-trained language model을 사용하고, 추가적인 labeling 작업이 필요 없어, 추가적인 학습, 보조 모델, fine-tuning이 필요 없음.

Unweighted sum(majority vote)와 Weighted sum(normalized)의 정확도가 비슷함.
unnormalized보다 normalized를 한 경우 더 좋은 성능을 보여줌.
기존에는 고정된 답변이 있어 greedy 방식을 채택했다면, 이 논문에서는 고정된 답변이 있어도 다양한 추론 과정을 도입하여 성능을 향상 시킬 수 있다는 결론을 내림.
CoT-prompting 기법과 비교





CoT는 때때로 성능을 저하 시키는 경우(Natural Language Inference, Closed-Book Question Answering)가 존재하지만, Self-consistency를 사용함으로 써 성능을 향상시킴.




수동으로 작성된 프롬프트에서 Human annotators는 사소한 실수가 발생할 수 있음. 이를 Self-consistency를 통해 향상 시킬 수 있음을 발견.
