NLP 기초 (3)

정원국·2022년 5월 23일

NLP 기초

목록 보기

3/7

FaceBook 에서 개발한 Word2Vec 알고리즘
단어 단위에서 더 쪼깬 "subword" 의 개념을 도입
- 글자 단위의 n-gram
- mouse의 3-gram 표현은 = <mo, mou, ous, use, se> : 5개의 embedding vector 필요
- Then, mouse = <mo + mou+ ous+ use+ se>
Why..?
< OOV (Out-of-Vocabulary) 처리에 유리 >
- 데이터세으로 학습하는 단어의 수 : 많아봐야 수만 ~ 수십만개
- 한 언어의 모든 단어 학습이 불가능
- 모르는 단어 (Out-of-Vocabulary, OOV) 가 등장할 경우 대처?
  
  - Word2Vec, GloVe에서는 처리 불가능 (처리 불가 error)
  - Ex) backdrop = back + drop : 이런식으로 느낌을 살려서 이해할수 있다.
  - Ex) downside = down + side
  
  < Rare Words >
- 빈도 수가 적은 단어들은 전처리 과정에서 제외하기도 함 ( 정제, 추출 )
  - 이들은 Word2Vec 임베딩 결과도 좋지 않음
- FastText는 Typo (오타)에 대해서도 강인함

from sklearn.decomposition import PCA 
pca = PCA(n_components = 2)
pcafit = pca.fit_transform(word_vec_list)

Data scientist 지망생