출처 : Active Learning Framework for Improving Knowledge Graph Accuracy(IEEE)
이 논문은 지식 그래프의 정확도를 향상시키기 위한 능동 학습 프레임워크를 제안한다.
지식 그래프는 현실 세계의 관계형 사실을 구조화된 트리플 형태로 표현하는 데이터 모델이며 다양한 응용 분야에서 널리 사용된다.
하지만 지식 그래프에는 부정확한 트리플이 존재하는 경우가 많기 때문에 지식 그래프의 신뢰성과 활용도를 높이기 위해서는 이러한 부정확한 트리플을 식별하고 수정하는 것이 중요하다.
이 논문에서는 기계 기반 모델과 인간 참여의 장점을 통합하여 지식 그래프의 정확도를 효율적이고 신뢰성 있게 개선하는 능동 학습 프레임 워크를 제안한다.
또한 지식 그래프 내의 관계 분포를 고려하여 능동 학습 프레임워크의 효율성을 극대화하는 샘플링 전략을 포함해 광범위한 실험 결과를 통해 제안된 능동 학습 프레임워크와 샘플링 전략이 지식 그래프의 정확도 향상에 표과적임을 보여준다.
추가로 인간 참여 수준에 대한 탐구와 실제 시나리오에서 지식 그래프의 정확도를 향상시키기 위한 실질적인 접근 방식에 대한 논의를 제공한다.
해당 논문에서 제안하는 능동 학습 프레임워크는 크게 4가지로 구성된다.
1) 학습
2) 점수화
3) 샘플링
4) 지식 그래프 업데이트
1. 학습 단계
2. 점수화 단계
Sigmoid Layer (시그모이드 레이어)
정의: 하이퍼볼릭 탄젠트 함수와 유사한 활성화 함수 중 하나로 입력 값을 0과 1 사이의 값으로 변환하여 확률처럼 해석할 수 있게 해준다.
plausibility score (개연성 점수)
개념 : 지식 그래프 내의 삼중항이 얼마나 진실에 가까운지 또는 사실일 가능성이 높은지를 나타내는 점수
3. 샘플링 단계
제안된 샘플링 전략
샘플을 선택하는 데 일반적으로 사용되는 간단한 전략이다.
기본적으로 KG에서 무작위로 트리플을 선택한다.
KGE 모델이 특정 triple이 "타당하지 않다" 또는 "오류가 있을 가능성이 높다"고 판단하는 경우에 해당한다. 즉, 모델은 해당 triple의 plausibility score를 낮게 부여하며, 이는 triple이 지식 그래프의 일반적인 패턴과 일치하지 않거나, 기존의 지식과 상반되는 정보를 담고 있다고 판단한 것이다.
모델이 불확실하게 예측하는 트리플을 우선적으로 선택하여 사람이 검토하게 함으로써, 지식 그래프의 정확도를 효율적으로 개선하는 방법
점수 함수는 주어진 트리플의 확률을 나타내는 타당성 점수를 출력한다.
즉 모델이 트리플이 맞다 혹은 틀리다라고 확실하게 판단하지 못하는 경우 트리플은 불확실성이 높다고 간주된다.
대부분의 지식 그래프는 소수의 관계가 대부분의 트리플을 차지하고 다수의 관계는 적은 수의 트리플만을 포함한다.
즉 일반적인 샘플링 전략은 트리플의 점수를 기준으로 순서대로 선택하기 때문에 관계의 불균형을 제대로 다루지 못한다.
따라서 트리플의 점수를 기반으로 샘플을 선택하되, 각 관계마다 균일한 수의 트리플이 선택되도록 보장하는 방법이다.
이러한 접근 방식을 통해 균형 샘플링은 지식 그래프 내 관계의 불균형 문제를 완화하고, 모든 관계에 대해 고르게 정확도를 향상시키는 데 기여할 수 있다.
샘플 불균형 문제를 해결하기 위한 또 다른 접근 방식으로, 지식 그래프 내 관계의 분포와 트리플 간의 의미론적 정보를 통합하는 전략이다.
특정 관계에 속하는 삼중항의 수가 불충분할 때, balanced sampling은 관계 불균형을 적절히 해결하지 못할 수 있다.clustered sampling은 클러스터링을 활용하여 삼중항 간의 의미적 유사성을 고려한다.
clustered sampling 과정:
- Embedding 획득: 지식 그래프 내 모든 삼중항의 Embedding을 획득합니다.
- 클러스터링: 획득한 Embedding을 사용하여 k-means++ 알고리즘(k-means++: the advantages of careful seeding)을 통해 클러스터링합니다.
- 샘플링: 각 클러스터에서 점수가 높은 순서대로 클러스터당 샘플링할 삼중항의 갯수에 맞춰 삼중항을 샘플링합니다.
번역 기반 모델에서는 UC를 적용해도 KG의 정확도가 향상되지 않는다는 점을 발견
이유 :
번역 기반 모델인 TransE와 TorusE는 관계를 엔티티 간의 단순한 변환으로 모델링한다.
이러한 모델들이 자신의 예측에 대한 불확실성을 측정할 수 있는 메커니즘을 내장하고 있지 않아 단순히 h + r이 t와 얼마나 가까운지를 계산할 뿐,
이 "가까움"의 정도가 얼마나 "확실한" 예측인지를 판단하는 것은 별개의 문제이기 때문이다.
즉 삼중항의 불확실성을 측정할 수 있는 학습 가능한 파라미터가 없기 때문에 UC 기반 샘플링 전략이 효과적이지 않다.
샘플링 전략에서 KG 정확도 향상 성능
능동 학습(Active Learning)은 모델 성능을 최적화하기 위해 적은 수의 훈련 레이블로 데이터 샘플을 전략적으로 선택하고 주석을 부여하는 방법론이다.
이 방법론의 핵심 요소는 샘플 획득으로, 이는 불확실성 및 다양성 평가를 기반으로 가장 가치 있는 데이터 포인트를 선택하는 것을 목표로 한다.
프레임워크에서 PS(Plausibility Sampling)와 UC(Uncertainty Sampling)라는 두 가지 샘플링 전략이 무작위 샘플링(RD, Random Sampling)보다 더 효과적이며 특히 샘플링 효율성은 RD보다 최소 2배 이상 높다.
이는 PS와 UC 전략이 RD 전략보다 훨씬 효율적으로 잘못된 트리플을 식별하고 수정한다는 것을 의미한다.
또한 제한된 예산의 효율적인 활용 측면에서 PS와 UC 전략은 동일한 주석 예산 내에서 더 많은 수의 올바른 트리플을 얻을 수 있다.
(주석 예산 : 사람이 직접 데이터의 오류를 수정하거나 검증하는 데 사용할 수 있는 시간이나 자원, 능동 학습의 목표는 이 예싼을 최대한 효율적으로 활용하는 것)
UC와 PS를 비교하면은 UC가 더 나은 KG 정확도 향상 및 샘플링 효율성을 제공함.
US는 DistMult, ComplEx 및 PALT에서 PS(Plausibility Score)보다 성능이 뛰어남.
특히, PS(Plausibility Score)와 UC(Uncertainty Calibration)는 AL(Active Learning) 반복의 초기 및 중간 단계에서 유사한 정확도 향상을 달성한다.
그러나 후반 단계에서는 UC(Uncertainty Calibration)가 PS(Plausibility Score)보다 더 큰 정확도 향상을 보인다.
이러한 결과는 triple의 타당성을 결정하는 것이 더 어려운 시나리오에서 UC가 PS보다 더 유리하다는 것을 보여준다.
다시 말해, 모델 예측에 내재된 불확실성은 모델이 제공하는 타당성 점수보다 triple이 올바른지 여부를 식별하는 데 더 효과적이다.
정리 :
전체적인 방법론은 능동 학습의 iterative process를 통해 적은 비용으로 최대한의 효과를 얻는 것을 목표로 한다.
핵심은 지식 그래프 자체의 정보만으로 부정확한 트리플을 식별하고, 다양한 샘플링 전략을 통해 인간 감별사의 노력을 효율적으로 활용하는 것이다.