[부스트캠프 AI-Tech] 10주차 Day 2

LKM·2022년 4월 23일

부스트캠프 AI-Tech P stage

목록 보기

7/45

BERT 모델 학습
- 도메인 특화 task의 경우, 도메인 특화 된 학습 데이터만 사용하는 것이 성능이 더 좋다!
BERT 학습의 단계
- Tokenizer 만들기
- 데이터셋 확보
- Next Sentence Prediction (NSP)
- Masking

TAPT(Task-Adative Pretraining)에 관한 의문점
- 현재 주어진 train data 37000개로는 학습하기 부족하지 않은가?
  - KLUE based 모델의 경우는 같은 코퍼스를 사용했기 때문에 상관없지만, 다른 모델의 경우 실험을 해봐야할 듯..
해볼것들?
- Data Augmentation
- Special Token (An Improved Baseline for Sentence-level Relation Extraction(2019))
- 모델링
  - 적합한 모델 search
  - TAPT
- scikit-learn으로 validation data 분할 (stratified)

함께 자라기