데이터
참고문헌으로 언급한 모든 자료 탐색
자료의 문단 혹은 페이지를 모두 저장하여 데이터프레임화
특히 자료의 표안에 좋은 내용이 많아서 이는 수기로 저장( 이때 LLM에 입력할 템플릿 양식에 맞춰서 저장함)
모델
새로 선정 upstage/SOLAR-10.7B-Instruct-v1.0
여기서 고민인게 사전학습할 자원이 없기 때문에 qlora로 학습 후 가중치 merge하여 저장
model.merge_and_unload()
#model.save_pretrained("./", safe_serialization=True)
#model.push_to_hub("solar-hansol-pretrain-merge" , use_temp_dir=True)
완료 되면 merge된 모델을 다시 lora를 적용하여 파인튜닝할 예정