P-stage MRC day1

사공진·2021년 10월 17일

AI tech 2기

목록 보기

23/23

1.코어 타임 내용

1)MRC intro& Python basics

Retrieval + Reader 크게 2-track

2)Huggingface library 복습

1.train data의 언어를 파악 후 적절히 tokenizer 사용할 것.
ex)klue/bert-base의 경우 한글 인식이 되나, bert-based-case는 인식 못 하여 [unk] 처리 됨

2.pre-trained model의 setting을 그대로 가져오기 위해 Auto class를 활용해 config 가져오기. 이때,

바꾸지 말아야 할 것: 모델의 아키텍쳐
바꿔도 되는 것: special token

cf.호출 후 직접 수정하는 방법 선호

4.Tokenizer/Config/Model 한 번에 불러오기

model_name = 'klue/bert-base'

config = AutoConfig.from_pretrained(model_name)

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForQuestionAnswering.from_pretrained(model_name, config = config)

3)baseline code 돌려보기

klue/bert-base epoch 3
LB_EM: 16.25
LB_F1: 26.31

4)피어세션

학습 내용 공유 및 대회 진행 방향 세우기

2.학습회고

지난번 KLUE 대회 때에 비해 baseline 코드가 많이 어렵게 작성된 것 같습니다. 우선 강의 내용을 듣고, data를 eda해보며 파악해봐야 할 것 같습니다.

사공진

인지간지

이전 포스트