1. 개념 정리
1) OOV (Out of Vocabulary) & UNK (Unknown)
- 의미: 기계가 배우지 못한 단어
2) 벡터화 방법
- 딥러닝 기반
- word embedding
- document embedding
- contextual embedding
- 머신러닝 기반
- DTM: 중복 제거
- TF-IDF: 특정 문서에서만 나타나는 빈도가 높을 수록 가중치 부여. 여러 문서에서 비슷하게 등장할 경우 높은 가중치를 부여받지 못한다.
3) 나이브 베이즈 분류기
- 데이터가 불균형할 경우 높은 성능을 내지 못함
- Precision: 정밀도
- Accuracy: label 불균형을 고려하지 않기 때문에 한계 존재
- F1-score: label 불균형 고려, precision과 recall의 조화평균
5) 오류
- 딥러닝 모델에 학습을 시키면서 데이터 형태가 요구하는 형태와 맞지 않아 생긴 문제가 있었음. x_train과 x_test는 이미 필요한 방식으로 처리를 해놨었기 때문에, 새롭게 변수를 선언해 다시 로드하고 padding과 같은 필요한 처리를 해주면 쉽게 해결 가능.
- loss 값이 음수가 나오는 현상
라벨을 원핫 인코딩을 통해 범주화 해줘야 한다. 그리고 모델 상에서 최종 깊이는 범주화된 데이터의 깊이와 일치시켜야 한다.
2. 회고
여러 모델을 돌려야해서 시간이 아주 오래 걸렸다. 이제까지 배웠던 모델들을 비교하고 복습할 수 있는 시간이어서 좋았다. 더불어 내가 아직 한참 멀었다는 것도 다시 한 번 상기시켜줬다.