[부스트캠프 AI-Tech] 11주차 Day 3~5
🗣️피어세션
- 데이터 EDA 관련
- sentence 추출시에 큰 따옴표로 랩핑된 문장도 있고, 없는 문장도 있다.. → 인용문으로 생각할 수 있어서 제거 필요 (eval 함수 사용)
- sentence 중에 큰 따옴표가 연속으로 나오는 경우가 있음 (””” 이런식으로..) → 수정하고 실험시 AUPRC 상승 관측
- Text Augmentation 논의
- synonym_replace → 유의어 대체,, 생각보다 어렵다..
- back_translate → entity 손상
- noise_add → entity 손상
- random_insert → entity 위치 정보 손상
- random_delete → entity 위치 정보 손상
- random_swap
- 어떻게 구현할 것인가? (Train data만? tokenizing 단계에서? 등...)
📊실험 회고
시도했던 것
-
roberta-large 모델 TAPT 실험
- TAPT 실험 epoch 1~8, 20
- fine-tuning 하이퍼 파라미터
- epoch 4, batch 16, 5e5 lr
-
focal loss 실험
-
fp16 테스트
회고
- TAPT 부분을 맡게 되었는데, 처음에 어떻게 적용해야 할지 감이 잡히지 않았다. 오랜 시간 검색 끝에 huggingface로 MLM 학습하는 notebook을 찾게 되었고, 우리의 실험 환경에 맞게 변형하였다. (역시 갓 google, stackoverflow...)
- roberta-large의 경우 한번 실험에 2시간이 걸리기에 bert-base로 TAPT를 먼저 실험했다. 리더보드 기준으로 f1 score가 2점 가까이 상승하는 모습을 확인하여 기대를 품고 roberta-large에 적용해보았다. 하지만, 결과는 성능 하락...
- 그 이후로, TAPT 실험의 epoch을 조정하면서 roberta-large로만 실험을 계속했다. epoch 당 30분의 시간이 걸려 거의 4일 내내 TAPT만 실험했다... 그렇게 실험한 결과 성능은 하락... 시간을 많이 사용하고 내가 생각한대로 나오지 않으니 상심이 컸다.. 엎친데 덮친격으로 우리팀이 리더보드 상 꼴등이어서 많은 생각을 하게 되었다..
- 데이터가 imbalance하여 focal loss를 사용해보았지만, 실험 결과 성능이 좋아지지 않았다.
- 저번 이미지 대회에서 1등팀이 pytorch lightning AMP를 사용한 것이 기억이 나서 검색해보다 huggigface에는 fp16이 있음을 알게 되었다. 시간이 확실히 단축되는 bert만 실험을 해서 성능에 어떻게 영향을 주는 확인을 못 했다.
- 멘토님께서 주말에 대회관련 피드백을 주신다고 하니 그동안 나의 실험들을 돌아보는 시간을 가져야겠다.