= 텍스트 데이터 + 데이터 마이닝
: 문서 집합(Corpus)로부터 새로운 정보를 확인하는 프로세스
One-hot encoding
- 문자를 숫자로 표현하는 기법 중 가장 기본적인 표현 방식
- 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스는 1 / 다른 단어들의 인덱스에는 0을 부여함
Bag-of-Words(BoW)
- 텍스트에서 사용된 단어의 종류와 빈도만을 바탕으로 분석
- 전체 문장 구조를 보지 않고 사용된 단어만 보더라도 대략의 의미 파악이 가능함
장점 VS. 단점
- 전처리가 단순함
- 단어들의 빈도를 간단히 수치화할 수 있고 통계 방법 적용이 가능함
- 분석 결과의 해석이 용이함
- 문장 구조를 무시하기 때문에 어순 상의 차이 파악이 불가능함
- 동음이의어의 구별이 어려움
단어 문서 행렬 Term-by-Document Matrix(TDM)
- 문서별로 나타난 단어의 빈도를 표 형태로 나타낸 것
한계- 희소 행렬 (Sparse Matrix)
: 문서 군내에서 사용되는 단어의 수가 많지만 하나의 문장이나 문서에서 사용되는 단어의 수가 제한적임에 따라 대부분의 칸이 0값일 수 있음
→ 사례 수에 비해 변수의 수가 많아 분석이 어려움- 단순 빈도 수 기반
→ 중요한 단어와 불필요한 단어들이 혼재되어 있음
단어 빈도-역 문서 빈도 TF-IDF (Term Frequency-Inverse Document Frequency)
- 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)을 사용하여 TDM 내의 각 단어들마다 중요한 정도에 가중치를 주는 방법
- 문서의 유사도, 검색 결과의 중요도, 문서 내에서 특정 단어의 중요도 확인
→ 많은 문서에서 자주 등장하는 단어 : 중요도가 낮다
→ 특정 문서에서만 자주 등장하는 단어 : 중요도가 높다
Word2Vec
+) Word2Vec 사이트
= 비지도학습으로 임베딩 공간의 밀도를 높이는 방법
목표 : 단어들을 벡터 공간에 두고 유사한 단어들을 서로 가깝게 하고자 함
- CBOW (Continuous Bag of Word)
+) CBOW 개념 정리
: 주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법
: 문백 단어의 순서는 예측에 영향을 주지 않음
- Skip-gram
+) Skip-gram 개념 정리
: 중간에 있는 단어로 주변 단어를 예측