한국어 Word2vec 모델의 최적화

하영영·2023년 9월 4일

🎯 졸작 준비자료

목록 보기
4/10

1) 벡터 크기는 300 그리고 윈도 크기는 5~7 사이가 적절하며,
최소 출현빈도 제한은 말뭉치 크기에 따라 적절히 큰 값으로 설정하는 것이 좋다


2) 조사와 어미 같은 문법 형태소를 학습에서 제외시키면 주제분류 같은 NLP에는 적합할수도.

하지만, 감성 분류에 적용한다면 문법 형태소가 문장의 의미를 결정하는 데 큰 역할을 하기도 하므로
임베딩 모델의 효율이 떨어질 가능성이 있다.


3) 형태소 분석기를 전처리 단계에서 적용한 한국어 word2vec 모델은 최적의 윈도우 크기가 달라질 가능성이 크다.
한국어는 기본적으로 형태소 단위로 나누면 단어의 개수가 증가하게 되기 때문.
(들어오셨던 = 들어오 + 시 + 었 + 던)


4) 한국어 문장에서 주어는 맨 앞, 서술어는 맨 마지막 이어서
주어와 서술어 사이의 거리가 상당히 멀어질 수도 있다.
(따라서, 윈도의 크기를 10정도로 증가시켜야 할 수도 있다.)
http://journal.dcs.or.kr/xml/19540/19540.pdf





fine-tuning시 Overfitting 방지

https://sims-solve.tistory.com/23
1. Learning rate 조절
2. dropout
3. 데이터 증량(EDA)
4. 정규화+batch normalize

profile
NLP 공부중

0개의 댓글