[P3] Week 1 Day 6

나며기·2021년 5월 3일
0

부스트캠프 AI Tech

목록 보기
64/79
post-thumbnail

가) 오늘 내 학습목표는 무엇이었나요?

  1. BM25Plus + PORORO
  2. 제출 기회 5번 모두 사용하기

나) 오늘 나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했나요?

  1. EM : 45.42%, F1 : 62.26%
  • BM25Plus + PORORO
  • tokenizer : mecab.bpe64k.ko
  • lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
  • 공백 및 장문 answer 처리
  • dummy_dataset
  1. EM : 46.25%, F1 : 62.79%
  • BM25Plus + PORORO
  • tokenizer : mecab.bpe64k.ko
  • lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
  • 공백 및 장문(>= 30) answer 처리
  • dummy_dataset
  1. EM : 45.83%, F1 : 61.30%
  • BM25Plus + PORORO
  • tokenizer : twitter.morphs(x, norm=True, stem=True)
  • lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
  • 공백 및 장문(>= 30) answer 처리
  • dummy_dataset
  1. EM : 47.50%, F1 : 63.88%
  • BM25Plus(k1 = 1, b = 0.75, delta = 1) + PORORO
  • tokenizer : mecab.bpe64k.ko
  • lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
  • 공백 및 장문(>= 30) answer 처리
  • dummy_dataset
  1. EM : 47.08%, F1 : 62.52%
  • BM25Plus(k1 = 0.5, b = 0.75, delta = 1) + PORORO
  • tokenizer : mecab.bpe64k.ko
  • lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
  • 공백 및 장문(>= 30) answer 처리
  • dummy_dataset

다) 오늘 나는 어떤 방식으로 모델을 개선했나요?

  • 장문의 길이 변경과 BM25Plus의 parameter를 변경하여 모델을 개선했습니다.

라) 오늘 내가 한 행동의 결과로 어떤 지점을 달성하고, 어떠한 깨달음을 얻었나요?

  • 저희 competition에 적합하게 BM25를 커스텀하면 좋을 것 같습니다.

마) 내일은 어떻게 다르게 시도해보실 수 있을까요?

  • 내일은 BM25 Custom을 시도해볼 계획입니다.

마무리

오늘보다 더 성장한 내일의 저를 기대하며, 내일 뵙도록 하겠습니다.

읽어주셔서 감사합니다!

profile
PLUS ULTRA

0개의 댓글