Deriving Validity Time in Knowledge Graph

Abstract
- 현존하는 KG그래프를 다루는 방법론인 TransE, FM 등에 Temporal 속성을 적용하여 어떻게 수정할 수 있을지에 대해 논한다.
- 굉장히 기본적인 기법을 소개하고있고 이를 기반으로 하여 여러 모델들이 발전하기를 기원하고있으며 그 중에서도 특히 FM 모델에 Temporal 속성을 추가하여 triple을 quadruple로 만들었을 때 굉장히 좋은 성능을 보이고 있다.
Introduction
- 기존의 KG그래프에서는 데이터가 갱신되거나 업데이트되거나 데이터의 유효기간 등의 시간정보를 일체 다루지 않는다.
- 이 연구에서는 그러한 문제점을 해소하고자 시간의 개념을 추가한 TKG 그래프를 제안한다.
Temporal Knowledge Graph
- 기존의 KG 그래프는 (s,r,e)의 셋 형태로 나타낼 수 있다.
- 이 논문에서는 (subject,predicate,object)로 표현
- 이곳에 timestamp t를 추가하여 TKG그래프를 만든다. 따라서 목표는 KG그래프가 T(timestamp)를 포함한 정보를 학습시키는 것이다.
Temporal score prediction
Relational Embedding Models
- (h,r,t) 관계를 저차원의 공간에 매핑하는 기법이다. 삼중항에 대한 score를 평가하며 loss function을 최소화 하는 방향으로 학습해 나간다.
Naive-TTransE
score(s,p:t,o)=−∥s+p:t−o∥
- 개념
- 가장 기본적인 아이디어는 p와 t를 연결한 edge를 만들어 사용하는 것이다.
- food:2020과 food:2021은 서로다른 edge인 것처럼 다룰 수 있게된다.
- 장점
- 학습 속도가 기본적인 TransE와 비교하였을 때 많이 느리지 않다
- 심플하다
- 단점
- 시간은 단순한 변수로 취급하여 그 흐름을 담아내지는 못한다. (과거, 미래와 독립적임)
Vector-based TTransE
score(s,p,o,t)=−∥s+p+t−o∥
- 개념
- t도 s,p,o와 마찬가지로 독립적인 하나의 벡터로 다룰 수 있게된다.
- 장점
- 단점
- 시간 벡터가 추가되기 때문에 학습해야하는 파라미터가 늘어난다.
Coefficient-based TTransE
score(s,p,o,t)=−∥t∗(s+p)−o∥score(s,p,o,t)=−∥s+t∗p−o∥
- 개념
- 시간에 따른 스칼라 값을 s,p에 곱하여 시간에 따른 영향력을 조절함
- 장점
- 추가적으로 학습해야하는 파라미터가 없어 학습속도가 빠름
- 단점
- 시간 벡터가 따로 존재하지 않기 때문에 미래에 대한 예측이 어려울 수 있음
TRESCAL
score(s,p,o,t)=sTWp:to
- RESCAL에 Temporal 속성을 추가한 것으로 직관적인나 성능은 좋지 않다.
Factorization Machines
- FM모델에서는 기존의 삼중항 (s,p,o)로 학습하던 것은 항을 하나 추가하여 (s,p,o,t)로 학습한다.
Conclusion
- 이 논문에서 말하는 것은 최종적으로 TKG를 하였을 때 FM의 경우는 좋은 성능을 보여 주었고 Relational Embedding에서는 좋지 않은 성능을 보여주었다.