가) 오늘 내 학습목표는 무엇이었나요?
- BM25 + PORORO
- 위키피디아 문서 문단 단위로 분리
- 제출 기회 5번 모두 사용하기
나) 오늘 나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했나요?
- EM : 0.42%, F1 : 0.00%
- EM : 35.00%, F1 : 52.15%
- BM25Plus + PORORO
- tokenizer : mecab.bpe64k.ko
- wiki_data['text'].apply(lambda x : x.split('\n\n')).to_list()
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문 answer 처리
- EM : 40.00%, F1 : 57.71%
- BM25Plus + PORORO
- tokenizer : mecab.bpe64k.ko
- wiki_data['text'].apply(lambda x : x.split('\n\n') if len(x) > 2000 else [x]).to_list()
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문 answer 처리
- EM : 19.58%, F1 : 34.49%
- BM25Plus + PORORO
- tokenizer : mecab.bpe64k.ko
- 위키피디아 문서를 하나로 합친 뒤, 30문장씩 분리
- lambda x : ' '.join(re.sub(r'[^0-9a-zA-Zㄱ-ㅎㅏ-ㅣ가-힣]', ' ', str(x.lower().strip())).split())
- 공백 및 장문 answer 처리
다) 오늘 나는 어떤 방식으로 모델을 개선했나요?
라) 오늘 내가 한 행동의 결과로 어떤 지점을 달성하고, 어떠한 깨달음을 얻었나요?
- 위키피디아 문서를 어떻게 분리하느냐가 중요하다는 것을 알게 되었습니다.
마) 오늘 나의 학습과 시도가 크게 성공적이지 않아서 아쉬운 것은 무엇인가요? 내일은 어떻게 다르게 시도해보실 수 있을까요?
- 내일도 위키피디아 문서를 문단 단위로 분리해서 시도해볼 계획입니다.
- 그리고 주말동안 Doc2Vec, Summary, Bert 등을 사용해서 retrieval를 구현할 계획입니다.
마무리
오늘보다 더 성장한 내일의 저를 기대하며, 내일 뵙도록 하겠습니다.
읽어주셔서 감사합니다!