그래프란?

그래프는 일반적으로 여러개의 entity node가 존재하고, 이 entity node들끼리 연결된 관계(relationship)을 갖는 형태로 정의된다. 이때 각 node는 node 자기 자신이나 다른 modal entity의 의미(semantic)나 node들 사이의 관계를 특정 짓는다.
이러한 characterise 작업은 SPO triple에 의해 수행 되는데 이때 SPO란, 주체(Subject)-술어(Predicate)-대상(Object)으로 이루어진 세 쌍으로, 주체와 대상은 entity로 표현되고, predicate는 relation으로 표현된다.
이때 각 entity들간의 관계는 1:1뿐만이 아닌, one-to-many, many-to-one의 케이스로도 표현될 수 있다.

Multimodal Knowledge Graph

Multimodality란, 다른 modal channel들의 혼합으로 볼 수 있다. 쉽게 말해서 시각, 청각, 언어 데이터들을 데이터타입별로 분리하지 않고 혼합한 것이다.
이러한 multimodality 특성을 가진 그래프를 multimodal knowledge graph라 하는데 한가지 타입의 데이터로만 구성되어 있었던 기존의 지식 그래프와 달리 multimodal knowledge graph는 언어적, 시각적, 청각적 데이터들을 하나의 단일 지식그래프에 저장할 수 있는 그래프이다.
하나의 단일 타입의 데이터만 가지고 있는 그래프가 아닌 멀티모달 데이터를 지식그래프를 통해 이용할 수 있다면, entity alignment, link prediction, relational reasoning 등의 작업 수행시 사람과 다름 없이 시청각적 신호들을 모두 이용하기 때문에 획기적인 성능 개선을 보여줄 수 있다.
또한 이미지와 비디오가 entity lingking과 같은 기술을 사용해 지식그래프의 entity로써 연결이 되어있다면,멀티모달 데이터를 분류(classify), 정보 탐색(retrieve), 인지(recognize) 작업시 지식그래프를 이용할 수 있으며, 이미지에 대한 zero-sample classification 문제를 해결하는데 도움을 줄 수 있다.

제안 구조

본 논문에선 다음 순서대로 멀티모달 지식 그래프 구축과, 검증을 수행한다.

그래프 구축

open source를 사용해 일반적인 맵핑을 수행한다

다이어그램 표현(representation)

각 노드의 embedding 표현이나, 다운스트림 작업을 위해 그래프 표현을 얻는 과정이 포함된다. 보통 이 작업에선 TransE와 TransR 방법이 많이 사용된다. 이 두가지 방법은 그래프 구축 시 knowledge complementation을 해결하기 위한 기법들이다. 우선 Entity 와 relation을 벡터로 표현한다. 그렇게 벡터 공간에 표현된 3중항인<head, relation, tail>으로 덧셈, 곱셈,뺄셈 등등의 연산을 수행하여 common sense에 맞는 올바른 triple을 나타내는 스코어를 구한다. 기본이 되는 수식은 다음과 같다.

h+r≈t

TransE

TransE는 Trans model의 가장 대표적인 방식이다.

profile
재밌나?

0개의 댓글