Pretraining이 사용되는 경우가 있음.
Pretraining이 가장 효율적인 방법인 경우에 대해 학습
pretraining없이 fine tuning만으로 새로운 지식을 추가하려고 하는 경우가 많은데, base model에 새로운 지식이 not well represented하다면, 결과가 좋지 않다고 함.
가장 큰 숫자를 정의하는 함수를 생성하라고 프롬트를 작성할때, finedtuning만 된 모델을 사용하면, 아래와 같이 부정확한 결과가 나옴.
정확한 함수 코드가 생성되고, 작동시켜보면 정확한 값을 도출하는 것 확인.
Pretrain을 할때 높은 품질의 데이터셋을 사용하는 것이 중요함.
1. Tokenizing and creating input_ids
Tokenization을 통해 문장text을 토큰이라 불리는 작은 유닛으로 나눔.
2. Packing
Reshape해야함. Sequence의 처음과 마지막 부분에 special token을 추가해해서 패키징함.