가) 오늘 내 학습목표는 무엇이었나요?
- BM25Plus + PORORO
- Dense Embedding + PORORO
- 제출 기회 5번 모두 사용하기
나) 오늘 나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했나요?
- EM : 47.08%, F1 : 63.60%
- BM25Plus(k1 = 1, b = 0.5, delta = 0.5) + PORORO
- tokenizer : mecab.bpe64k.ko
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문(>= 30) answer 처리
dummy_dataset
- 3000자 이상 장문 제거
- EM : 46.67%, F1 : 63.25%
- BM25Plus(k1 = 1, b = 0.5, delta = 0.5) + PORORO
- tokenizer : mecab.bpe64k.ko
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문(>= 30) answer 처리
dummy_dataset
- 불용어 제거
- EM : 46.25%, F1 : 63.00%
- BM25Plus(k1 = 1, b = 0.5, delta = 0.5) + PORORO
- tokenizer : mecab.bpe64k.ko
- lambda x : ' '.join(re.sub('[-=+,#/\?:^$.@*\"※~&%ㆍ!』\‘|()[]\<>`\'…》]', ' ', x).lower().split())
- 공백 및 장문(>= 30) answer 처리
dummy_dataset
- EM : 12.08%, F1 :16.67 %
- BM25Okapi + BM25L + BM25Plus + PORORO
- tokenizer : mecab.bpe64k.ko
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문(>= 30) answer 처리
dummy_dataset
- EM : 9.58%, F1 : 16.68%
다) 오늘 나는 어떤 방식으로 모델을 개선했나요?
라) 오늘 내가 한 행동의 결과로 어떤 지점을 달성하고, 어떠한 깨달음을 얻었나요?
- 지난 일주일간 BM25에서 테스트해볼 수 있는 부분은 거의 다 해본 것 같고, 현재 성능상 한계점에 수렴했다고 생각합니다.
- 물론, BM25에서 성능을 조금 더 올릴 방법은 있겠으나, 극적인 성능 향상을 위해서는 BM25보다는 Dense Embedding을 사용해야겠다고 생각했습니다.
마) 내일은 어떻게 다르게 시도해보실 수 있을까요?
- 내일은 본격적으로 Dense Embedding + PORORO를 시도해볼 계획입니다.
마무리
오늘보다 더 성장한 내일의 저를 기대하며, 내일 뵙도록 하겠습니다.
읽어주셔서 감사합니다!