PDF : https://arxiv.org/pdf/1906.05317.pdf
Difference between conventional KBs and commonsense knowledge
정해진 형식(two entities with a known relation)이 있는 전통적인 knowledge base와 다르게 commonsense knowledge는 느슨하게 구조화된 open-text description of kenowledge 이다.
How can we develop generative models of commonsense knowledge?
인간의 상식 추론 능력을 기계가 어떻게 습득할 수 있을까? 무한하게 다양한 상황들 중에서 현재 상황과 관련있는 정확한 상식을 추론해낼 수 있어야 할 것이다.
본 논문은 자동으로 Commonsense Knowledge base 구조를 생성하는 모델에 대한 연구 논문이다. ATOMIC(Sap et al.2019), ConceptNet(Speer et al.,2017) 두 가지의 commonsense knowledge graph datasets을 사용하여 연구를 진행하였다.
A Seed set of knowledge 에 대하여 트랜스포머 모델을 사전학습시킨다. 모델은 사전학습 과정에서 knowledge generation을 위핸 representation 조정을 거친다. 그리고 사전학습된 모델은 높은 수준의 새로운 튜플들을(commonsense knowledge) 생성해낸다.
기본적인 구조는 GPT,Radford et al.(2018) 와 같다. 여러개의 트랜스포머 블록으로 모델이 구성되며, 트랜스포머블록은 멀티헤드어텐션 블록과 피드포워드 네트워크로 구성되어 있다.
COMET는 형식의 knowledge base의 자연어 튜플 데이터로 훈련된다.
Notation
: subject of the tuple
: relation of the tuple
: object of the tuple
: a set of Subject tokens
: a set of Relation tokens
: a set of Object tokens
예를 들어, ConceptNet tuple의 경우에는 "taking a nap" 에 대하여 s= "take a nap", r = Causes, o : "have energy" 가 된다.
s,r이 input으로 주어졌을 때 o를 생성해내는 것이다.
형식의 튜플들이 concatenated 된 word의 sequence 형태 : =
input 에 대하여 word embedding 진행 :
포지션 임베딩 :
t : time stemp
For ConceptNet, a second set of masking tokens separate Xr and Xo because Xr can have avariable number of tokens.
MULTIATTN : Multi-headed self attention mechanism
FFN : two-layer feed-forward network
LAYERNORM : layer normalization, contain a residual connection
COMET는 Object o 를 생성하는 것을 학습하기 위하여 훈련된다. 이 목표를 달성하기 위해 위의 loss function을 maximize하는 방향으로 모델은 훈련된다.
는 각각 subject, relation, and object phrase의 token의 갯수다.
논문에서는 knowledge seed sets으로 ATOMIC과 ConceptNet을 사용하였다. 그러나 COMET는 domain-agnostic하기 때문에 다른 commonsense knowledge resources도 comet모델에 사용될 수 있다.
COMET는 12layers, 768-dimensional hidden states, and 12 attention heads로 intiallized되었다. 이외에도, dropout rate=0.1, Gelu를 사용하였고 훈련하는 동안에는 배치사이즈는 64를 사용하였다.
실험은 ATOMIC dataset, 그리고 ConceptNet dataset 각각에 대하여 수행되었다. 우선 Atomic dataset experiments 부터 자세히 살펴보도록 하겠다. ATOMIC은 commonsense를 9차원으로 추출하며 각 차원이 relation이 된다.
ATOMIC events(e.g., “X goes to the store”) are phrase subjects, s, the dimension (e.g., xIntent) is the phrase relation, r, and the causes/effects (e.g., “to get food”) are phrase objects, o.
Metrics
BLEU-2를 자동 평가 지표로 사용하여 모델을 평가하였다.
perplexity(ppl) 또한 보고하였다.
human evaluation을 진행함.
Ablation study
: 새롭게 생성된 튜플들의 비율
: 새롭게 생성된 모든 튜플 중 train dataset에는 없었던 새로운 object의 비율
: 새로운 object 중 unique object의 비율
BELU-2 에 대해서 COMET가 다른 Baseline model들 보다 뛰어난 성능을 보이고 있다.
test set에서 랜덤하게 선정된 100개의 events와 각각의 relation type에 대한 human evaluation 결과에서도 COMET가 제일 뛰어난 성능을 보임.
decoding algorithm effect에 대한 실험 결과를 살펴보면, greedy decoding을 사용했을 때 77.53%로 가장 높은 성능을 보이며 human evaluation과 10% gap 차이 남. human performance에 가장 근접한 수치. 추가로, 더 많은 후보들을 뽑을 수록 성능이 더 낮아짐.
training data의 10%만 사용했을 때의 성능이 가장 좋음. 그리고 pretrained weight를 사용하지 않고 후련된 모델은 training data를 1%사용했을 때의 성능에도 못미침.
ConceptNet Experiments