피어세션 정리
-
선택과제
- 선택과제를 완성한 사람도 있었고 다하지 못한 사람도 있었다. 상하님이 선택과제 3번에 대한 대략적인 방법을 설명해 주셨고 이를 기반으로 한글 데이터에 대해 tokenize해주셨습니다.
- 선택과제 2번의 경우 에폭을 10으로 바꾸기만 한 것으로도 좋은 성능을 보였다. 대희님이 conv를 기반으로한 lightcov 모델을 적용해봤을때 기존의 모델의 스코어보다 1점가량 높게 나왔다.
-
추가 학습
- 캐글에 공개한 kcbert, 네이버 뉴스의 댓글등의 신조어를 포함하여 학습함. 데이터들을 살펴보니 비속어등도 다양하고 비하표현도 많은데 편향된 모델을 가지게 되는 것이 아닐까?
- 앞으로 허깅페이스를 자주 사용하게 될텐데 허깅페이스에 대한 기본적인 사용방법을 익히자!
- 허깅페이스 튜토리얼을 공부하기
느낀점
U stage가 마무리되어가고 있는데, 빠른 속도로 nlp 관련 개념 및 이론에 대해 정리할 수 있었다. 공부한 내용을 토대로 앞으로 남은 P stage를 잘 해결할 수 있었으면 좋겠다.