NLP
Bag of Words
간단한 생성 예시
문제점?
Naive Bayes Classifier ( for 문서 분류)
Bayes’ Rule을 적용 (문서와 class)
문서 d, class c
문서 d가 단어 w들로 이루어져 있을 때
Word Embedding (Word2Vec, Glove)
근접한 단어들의 vector를 train하는 방법
가정: 비슷한 context에 있는 단어들은 의미도 비슷할 것이다.
분포 가설 (단어 cat은 확률 분포 p(w|cat)에 의해 의미가 정해진다.
구조
핵심: 입력 단어의 W1상에서의 vector와 출력 단어의 W2상에서의 vector간의 내적에 기반한 유사도가 최대한 커지도록 한다. 다른 단어들과의 유사도는 최대한 작게 만든다.
예시
특성
단어간의 관계가 vector간의 관계로 나타난다. (vector 공간상에서)
유추 가능 (단어간의 +,- 가능)
Intrusion Detection: 다른 의미를 가진 단어 선택
응용 (단어 유사도, 기계 번역, POS, NER, 감정분석...등)
co-occurrent matrix (동시출현)을 계산한다.
새로운 형태의 loss 사용
u: 입력 word vector, v: 출력 word vector, P: 두 단어가 한 윈도우에서 몇번 등장하는가
빠른 train 가능
작은 말뭉치(데이터)로도 잘 작동
예시 (비교급들의 vector 관계)
NER (Named Entity Recognition)
POS(Part of Speech) tagging
문장 내 단어들의 품사를 식별하여 태그를 붙여주는 것
예시
chunking: 여러 개의 품사로 구(phrase)를 만드는 것
chunk: 만들어진 구
예시
ref. https://ichi.pro/ko/nlpeseo-pos-taeging-mich-cheongking-hagseub-147300065323211
Dependency Parsing
Parsing: 각 문장의 문법적인 구성 또는 구문을 분석하는 과정
Consitituency parsing: 문장의 구성요소를 파악하여 구조를 분석하는 방법
Dependency Parsing: 단어간 의존 관계를 파악하여 구조를 분석하는 방법
ref. https://velog.io/@tobigs-text1314/CS224n-Lecture-5-Linguistic-Structure-Dependency-Parsing
Coreference Resolution (상호참조해결)
임의의 개체(entity)를 표현하는 다양한 단어(멘션)들을 찾아 연결해주는 자연어처리
예시
Entailment prediction
Self-Supervised training (자기지도 학습)
조건부독립 (conditional independence assumption)