Retrieval + Reader 크게 2-track
1.train data의 언어를 파악 후 적절히 tokenizer 사용할 것.
ex)klue/bert-base의 경우 한글 인식이 되나, bert-based-case는 인식 못 하여 [unk] 처리 됨
2.pre-trained model의 setting을 그대로 가져오기 위해 Auto class를 활용해 config 가져오기. 이때,
바꾸지 말아야 할 것: 모델의 아키텍쳐
바꿔도 되는 것: special token
cf.호출 후 직접 수정하는 방법 선호
4.Tokenizer/Config/Model 한 번에 불러오기
model_name = 'klue/bert-base'
config = AutoConfig.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name, config = config)
klue/bert-base epoch 3
LB_EM: 16.25
LB_F1: 26.31
학습 내용 공유 및 대회 진행 방향 세우기
지난번 KLUE 대회 때에 비해 baseline 코드가 많이 어렵게 작성된 것 같습니다. 우선 강의 내용을 듣고, data를 eda해보며 파악해봐야 할 것 같습니다.