GOAL : 단어와 문서를 벡터로 표현하는 방법에 대한 고민
- NLP 소개
- Bag of Words 소개
- 단어를 표현할 때 one-hot-encoding 을 이용하고, 단어의 등장 순서를 고려하지 않는 간단한 방법
- 간단하지만 많은 자연어 처리 task 에서 효과적으로 동작
- Bag of Words 를 이용해 문서를 분류하는 Naive Bayes Classifier 에 대한 이해
- NLP (Natural Language Processing)
- Text Mining
- 문서에서 주요한 정보를 추출하거나 문서를 군집화하고 사회 과학적인 연관성을 찾아내는 Text mining
- Information Retrieval (정보 검색)
NLP 는 Natural language processing 으로, 주로 문서를 이해하는 NLU 와 문서를 생성하는 NLG 태스크로 나뉜다.
Low-level parsing
Word and phrase level
Sentence level
Multi-sentence 그리고 paragraph level
모든 문장은 vector
로써 표현될 수 있다.
단어 및 문서를 숫자로 나타내는 간단한 표현법
각 문장은 문서에 포함된 word 들의 one-hot vector 를 모두 더한 벡터로 나타낼 수 있다.
(by conditional independence assumption)
독립
이라면 각 확률의 곱으로 나타내질 수 있음 이 때, 어떤 단어가 문서에 한 번도 등장하지 않은 경우, 다른 단어들이 얼마나 밀접한지와 관계없이 확률이 0이된다.
- 이를 피하기 위해 Regularization 이 사용된다.
또 어떤 문서 가 어떤 클래스에 속할 확률은 Maximum Likelihood Estimation 으로 결정된다.
이 글은 네이버 커넥트재단 부스트캠프 AI Tech 교육자료를 참고했습니다.