Chain-of-thought, Zero-shot Chain-of-thought, instruction tuning

Yezun Chung·2023년 11월 30일

Deep Learning

목록 보기

9/16

기존 zero shot 에서는 task 만 주어지고 결과 값을 얻을 수 있었고 few-shot 에서는 prompt에 예시를 몇개 주면 결과 값을 얻을 수 있었다.

이러한 가중치 조정 없이 prompt를 이용하는 in-context learning 이 대두되면서 여러 step 을 거쳐야 풀 수 있는 문제들을 해결하는 chain-of-thought 방식이 나온다.

여기서 한발 더 나아간 방식이 zero-shot chain-of-thought로, llm 에서 inference 결과를 가져와 step by step 으로 제시한다.

이 cot 를 유도하는 prompt 는 디게 다양하다.

Instruction Tuning 의 메인 키워드는 align 이다.

실제 사람은 이런 답변을 할 것이다.

하지만 gpt3 는 이런 답변을 하겠지.

이렇게 프롬프트의 의도와 다른 답을 하는 것을 막기 위해 instruction 과 output 데이터셋을 따로 학습시키는 것을 instruction finetuning 이라고 한다.
다양한 task 가 instruction 형태로 들어있다.

높은 성능 향상을 보일 수 있지만, task 가 많기 때문에 비용이 많이 들고, open-ended 문제에 대한 채점 기준이 모호하다. 등등 여러 단점도 있음.

이를 해결하기 위해 나오는 것이 RLHF 라고 하네요..다음 시간에~

Yezun Chung

CS undergraduate student, interested in ML, NLP, CV, RL, multi-modal AI

이전 포스트

Multi-GPU with DP, DDP, FSDP

다음 포스트

Chain-of-thought, Zero-shot Chain-of-thought, instruction tuning

Deep Learning

Multi-GPU with DP, DDP, FSDP

RLHF(reinforcement learning from human feedback)

0개의 댓글

관련 채용 정보