유사성과 모호성

한지용·2021년 6월 8일
0

DeepLearning

목록 보기
3/9

유사성과 모호성

단어의 의미

겉으로 보이는 형태 내에 여러 의미를 포함함
사람은 주변 정도에 따라 단어의 의미 파악
다르게 해석한 경우, 잘못된 의미로 이해

모호성을 발생시키는 어휘

  • 동형어(Homonym) : 형태는 같으나 뜻이 서로 다른 단어
  • 다의어(Polysemy) : 하나의 형태로 여러 의미를 지니고, 그 의미들이 서로 관련성을 가지는 단어
  • 동의어(Synonym) : 다른 형태이지만 의미가 같은 단어
  • 상위어(Hypernym)와 하위어(Hyponym) : 상위 개념을 표현하는 단어 / 하위 개념을 표현하는 단어
    ex) 동물, 포유류 ;포유류, 코끼리; 코끼리, 아프리카 코끼리

딥러닝 이전 에는 단어 중의성(Word-Sense Disambiguation, WAD)과정 포함

딥러닝을 활용한 자연어 처리 방식은 End-to-End 학습 방법 선호로 RNN 사용으로 단어 중의성 해소에 대한 필요도가 감소

원핫 인코딩

단어를 컴퓨터가 인지할 수 있는 벡터로 변환 하는 가장 간단한 방법
v{0,1}v, where v is one-hot vector and v is vocabulary sizev \in \{0,1\}^{|v|}\text{, where } v \text{ is one-hot vector and }|v| \text{ is vocabulary size}

문제점 : 원핫 벡터의 차원은 매우 크다. 단 하나의 1과 나머지는 모두 0 (Sparse vector) -> 벡터간 연산 시 결과 값이 0이 된다(서로 직교하는 경우가 많아진다).

차원의 저주: 차원이 증가할 수록 벡터가 매우 낮은 밀도로 희소하게 분포하게 된다. 이를 해결하기 위해, 차원을 축소하여 단어를 표현할 필요성 증가, 현재는 word Embedding 사용

특징

효과적인 표현 방법: 어떤 대상의 특징(Feature)를 잘 표현해야 한다.

  • 각 샘플의 수치가 서로 다르다
  • 최대한 다양하게 표현되어야 한다.

단어의 특징 벡터 구성을 위한 가정

  • 의미가 비슷한 단어라면 쓰임새가 비슷할 것
  • 쓰임새가 비슷하므로, 비슷한 문장 안에서 비슷한 역할로 사용될 것.
  • 따라서 함께 나타나는 단어들이 유사할 것

특징 추출하기: TF-IDF

TF-IDF(Term Frequency - Lnverse Document Frequency)

TFIDF(w,d)=TF(w,d)DF(w)TF-IDF(w,d) = \frac{TF(w,d)}{DF(w)}

TF: 단어가 문서 내에 출현한 횟수
IDF : 단어가 출현한 문서의 숫자의 역수

수치가 높을 수록 해당 단어 w는 문서 d를 대표하는 특징이다.

벡터 유사도 구하기

L1 distance: L1 Norm(Manhattan Distance) dL1(w,v)=i=1dwivi, where w,vRdd_{L1}(w,v) = \sum^d_{i=1}|w_i -v_i| \text{, where } w,v \in \bf{R}^d

L2 distance: L2 Norm(Euclidean Distance) dL2(w,v)=i=1d(wivi)2, where w,vRdd_{L2}(w,v) = \sqrt{\sum^d_{i=1}(w_i -v_i)^2} \text{, where } w,v \in \bf{R}^d

Infinity Norm d(w,v)=max(w1v1,w2v2,w3v3,..,wivi), where w,vRdd_{\infin}(w,v) = max(|w_1 -v_1|,|w_2 -v_2|,|w_3 -v_3|, .. , |w_i -v_i|) \text{, where } w,v \in \bf{R}^d

Cosine Similarity : 벡터의 내적과 동일

Jaccard Similarity : 두 집합간의 유사도를 구하는 방법 ,수식 자체에서는 min,max 연산 사용

문서간 유서도 구하기: TF 또는 RF-IDF 벧터를 통해 유사도를 구할 수 있다

선택 선호도

문장 : 여러 단어의 시퀀스로 구성
단어 : 문장 내 주변의 단어들에 따라 의미가 결정 됨

선택 선호도: 이를 수치화 하여 표련하는 방법

선택 선호도 강도: 동사가 주어졌을 때 목적어 관계에 있는 표제어 단어들(명사)의 분포 vs 평소 문서 내 해당 명사가 나올 분포 : 이 차이가 클 수록 강한 선택 선호도를 갖게 된다.
KL-divergence 사용

선택 관련도:

AR(w,e)=P(cw)logP(c)P(cw)SR(w)A_R(w,e) = -\frac{P(c|w)log\frac{P(c)}{P(c|w)}}{S_R(w)}

선택 선호도 강도가 낮은 술어 -> 윗변이 클 경우에는 술어와 클래스 간의 더 큰 선택 관련도를 갖게 됨
해당

0개의 댓글