유사성과 모호성
단어의 의미
겉으로 보이는 형태 내에 여러 의미를 포함함
사람은 주변 정도에 따라 단어의 의미 파악
다르게 해석한 경우, 잘못된 의미로 이해
모호성을 발생시키는 어휘
- 동형어(Homonym) : 형태는 같으나 뜻이 서로 다른 단어
- 다의어(Polysemy) : 하나의 형태로 여러 의미를 지니고, 그 의미들이 서로 관련성을 가지는 단어
- 동의어(Synonym) : 다른 형태이지만 의미가 같은 단어
- 상위어(Hypernym)와 하위어(Hyponym) : 상위 개념을 표현하는 단어 / 하위 개념을 표현하는 단어
ex) 동물, 포유류 ;포유류, 코끼리; 코끼리, 아프리카 코끼리
딥러닝 이전 에는 단어 중의성(Word-Sense Disambiguation, WAD)과정 포함
딥러닝을 활용한 자연어 처리 방식은 End-to-End 학습 방법 선호로 RNN 사용으로 단어 중의성 해소에 대한 필요도가 감소
원핫 인코딩
단어를 컴퓨터가 인지할 수 있는 벡터로 변환 하는 가장 간단한 방법
v∈{0,1}∣v∣, where v is one-hot vector and ∣v∣ is vocabulary size
문제점 : 원핫 벡터의 차원은 매우 크다. 단 하나의 1과 나머지는 모두 0 (Sparse vector) -> 벡터간 연산 시 결과 값이 0이 된다(서로 직교하는 경우가 많아진다).
차원의 저주: 차원이 증가할 수록 벡터가 매우 낮은 밀도로 희소하게 분포하게 된다. 이를 해결하기 위해, 차원을 축소하여 단어를 표현할 필요성 증가, 현재는 word Embedding 사용
특징
효과적인 표현 방법: 어떤 대상의 특징(Feature)를 잘 표현해야 한다.
- 각 샘플의 수치가 서로 다르다
- 최대한 다양하게 표현되어야 한다.
단어의 특징 벡터 구성을 위한 가정
- 의미가 비슷한 단어라면 쓰임새가 비슷할 것
- 쓰임새가 비슷하므로, 비슷한 문장 안에서 비슷한 역할로 사용될 것.
- 따라서 함께 나타나는 단어들이 유사할 것
특징 추출하기: TF-IDF
TF-IDF(Term Frequency - Lnverse Document Frequency)
TF−IDF(w,d)=DF(w)TF(w,d)
TF: 단어가 문서 내에 출현한 횟수
IDF : 단어가 출현한 문서의 숫자의 역수
수치가 높을 수록 해당 단어 w는 문서 d를 대표하는 특징이다.
벡터 유사도 구하기
L1 distance: L1 Norm(Manhattan Distance) dL1(w,v)=∑i=1d∣wi−vi∣, where w,v∈Rd
L2 distance: L2 Norm(Euclidean Distance) dL2(w,v)=∑i=1d(wi−vi)2, where w,v∈Rd
Infinity Norm d∞(w,v)=max(∣w1−v1∣,∣w2−v2∣,∣w3−v3∣,..,∣wi−vi∣), where w,v∈Rd
Cosine Similarity : 벡터의 내적과 동일
Jaccard Similarity : 두 집합간의 유사도를 구하는 방법 ,수식 자체에서는 min,max 연산 사용
문서간 유서도 구하기: TF 또는 RF-IDF 벧터를 통해 유사도를 구할 수 있다
선택 선호도
문장 : 여러 단어의 시퀀스로 구성
단어 : 문장 내 주변의 단어들에 따라 의미가 결정 됨
선택 선호도: 이를 수치화 하여 표련하는 방법
선택 선호도 강도: 동사가 주어졌을 때 목적어 관계에 있는 표제어 단어들(명사)의 분포 vs 평소 문서 내 해당 명사가 나올 분포 : 이 차이가 클 수록 강한 선택 선호도를 갖게 된다.
KL-divergence 사용
선택 관련도:
AR(w,e)=−SR(w)P(c∣w)logP(c∣w)P(c)
선택 선호도 강도가 낮은 술어 -> 윗변이 클 경우에는 술어와 클래스 간의 더 큰 선택 관련도를 갖게 됨
해당