어제 읽은 [Improving the Use of Pseudo-Words for Evaluating
Selectional Preferences(2010)] 논문은, 선택 선호도(Selectional Preference)
매커니즘의 evaluation
단계의 기법으로 Pseudo-words(유사 어휘)
기법을 활용한 효과적인 평가방법을 제안한 논문이었다.
선택 선호도(Selectional Preference)
에 대한 개념부터 이해하고 싶어져서 처음 선택 선호도(Selectional Preference)
라는 개념을 명명한 Resnik의 1997년도 논문 리뷰 글을 찾아 읽어보았다. (어제 논문은 리뷰 글을 찾아보기가 어려웠다..)
어제 논문에서 많이 등장했던 용어인 backoff model
이 n-gram 언어모델
과 관련이 있다고 느꼈는데, 해당 논문에서 smothing
의 효과가 있다고 하여 추가로 찾아본 smothing
기법에 크게 laplace smoothing
과 back-off smoothing
이 있다는 것을 알게 되며 smothing
방법론 중 하나의 접근법이라는 것을 배웠다.
smothing
기법: 통계적 언어모델, N-gram 언어모델에서 희소 문제를 해결하기 위한 방법. 확률값
이 0
이 되지 않도록 하여 문장 생성 확률
이 정의되지 않는 문제를 해결하기 위한 방법이러한 선택 선호도(Selectional Preference)
및 선택 제한(selectional constraints/selection restriction)
개념은 우선은 중의성을 해소(WSD)
하기 위해 출발한 개념인 것 같다. (좀더 사람과 같이 단어의 의미를 파악할 줄 아는 NLP를 만들기 위해) 그리고 정량적인 수식에는 쿨백-라이블러 발산(KLD)
의 개념이 사용된다.(두 확률분포의 차이를 계산하는 함수, 정보이론에서의 상대 엔트로피 개념이 활용됨)
하지만 다른 모델과 마찬가지로 학습을 시켜주는 단계가 필요하다. 그리고 이때, 사람이 manually
하게 엄청난 대량의 training data를 직접 annotation
하여 준비하거나, semantic feature
를 추출하는 데에는 한계가 있을 수 있다. 이러한 방향에서 Resnik은 supervised training
없이도 중의성을 해소하는 방안을 고민해본 것 같다.
하지만, 저자가 An Unsupervised Method for Sense Disambiguation
라고 제안한 argument plausibility judgments(논항 타당성 판단)
은 WordNet(워드넷)
기반이다. 즉, 한계가 있을 것이다. (아마 1997년도에는 이러한 제안이 최선이었을 것 같다.)
다른targeted aspect-based sentiment analysis (TABSA)
주제의 논문([Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence(2019)]) 에서는 심지어 Aspect
(ex. 가격, 안전성, 교통 등)가 문장 시퀀스 내에 등장하지도 않는다.(pre-training 시에는 manual annotation이 구축된 뒤 학습되지만)
(-> 그리고 이를 토대로 Classification 시, "Location 1(Target
) - price(Aspect
) - Positive(Sentiment
)" 형태의 Auxiliary sentence(보조 문장)
을 Origin Sentence
에 붙여서 수행함 - "[CLS] Auxiliary Sentence
[SEP] Original Sentence
[SEP]" 형태로)
하지만, 해당 논문에서는 predicate
와 arguments
가 모두 문장에서 등장해야할 것이다.(그래야지만 워드넷을 활용해 선택 확률의 값을 계산해낼 수 있으니까) 이런 부분에서도 한계가 존재했다고 볼 수 있지 않을까? 사람은 많은 경우에 문장에서 정보를 생략하기 때문에
argument
라는 용어가 많이 나오는데 아직 정확한 뉘앙스가 잘 와닿지 않음 (아마도 predicate(술어)-argument(논항)
관계 ? (ex. 동사-목적어
관계))