Intro
초기 모델은 abstractive summarization 방식을 사용(vocab set에서 word를 generate 한다)
이러한 방식은 unsupervised 방식으로 요약을 학습하기 위해 autoencoder를 도입했다
extractive model 은 word combination을 찾아내 요약을 만들어낸다.
최근 extractive model 이 abstractive model 보다 좋은 성능을 내고 있다
이러한 추세지만 논문에서는 inherent downside를 지적
모델이 고려하는 점
1) 형성된 요약본과 원래 input과의 semantic 유사도 (요약본이 input text 의 core content를 포함하도록 하기 위한 좋은 방법)
2) 형성된 요약본의 fluency
직관적으로 짧은 요약본을 생성하는 것이 더 어려움.
논문에서는 여러 길이의 요약본을 생성하도록 하고 이들이 서로 mutually 개선하게 만든다.
RL 훈련을 위한 pretraining task를 고안했다
Related work
이 논문에서 RL을 사용하는 목적
1) input text와 요약본 사이의 semantic similarity를 잡아내기 위해
2) 요약본의 길이를 조절할 수 있는 능력
3) model agnostic RL framework (모델에 구애받지 않는다? 무슨 모델? )
요약을 위한 pre training task
사전 논문들은 long-document 요약을 위한 pre training 과정을 소개하지만 이 논문은 sentence 요약이기 때문에 이에 특화된 방식을 제공한다.
Method
notation
변환하고자 하는 long sentence
요약된 short summary
text와 요약본 쌍은 훈련시 제공되지 않는다는 점 참고
<강화학습 프레임워크>
ground truth 가 존재하지 않기 때문에 summary 의 quality에 기반해 generator를 훈련시킨다
Generation 과정은 word-sampling 과정을 필요로 하는데 이는 미분 불가능하다
→ RL을 이용해 이러한 미분 불가능성을 타파한다.
[state] : 들어간 인풋을 t, 생성된 요약본을 y_t 라고 했을 때 상태는 아래와 같이 표현된다.
[action] : vocab set에서 다음에 올 단어를 선택
위와 같은 transition function 이 완성됨
[reward]
선택한 단어가 eos 이거나 요약본이 지정한 길이에 도달했을 때 reward를 주고 나머지 경우에는 0
세부적으로는 아래와 같이 세분화됨
1) R_c 는 요약본과 원본의 semantic 유사도에 점수를 주는 항목
f는 BERT와 같이 text를 embedding 할 수 있는 function 이고 sim 은 cosine similarity를 사용했다
2) R_F 는 유창함에 점수를 주는 항목으로 문법의 정확도와 자연스러움을 점수로 매긴다
perplexity라는 NLP 에서 사용되는 지표로 낮을수록 유창함을 나타낸다.
삼지창은 언어 모델의 network parameter를 의미하며 chain rule 이 적용되어 y_t-1를 condition 으로 갖는다.
이에 따라 R_f는 위와 같이 주어진다.
3) 마지막은 의도한 길이를 맞췄을 때 가중적인 점수를 주는 항이다.
policy gradient
Multi summary learning
key idea: 비교적 만들기 쉬운 high quality summary로 만들기 어려운 low quality summary를 개선
l 을 요약본 길이가 집합 L 에서 하나씩 뽑는다고 생각했을 때
y를 제외한 다른 요약본들을 y’ 이라 했을 때 다음과 같이 쓸 수 있다.
R_q는 l 길이의 요약본이 받는 reward라고 생각하면 된다.
R_c는 앞서 설명한 것과 같이 semantic 유사도에 대한 reward이고 lambda 는 weight 계수, u는 summary y’이 y를 만들때 줄 수 있는 usefulness를 평가하는 함수이다.
첫번째 항은 quality 함수에 의해 y’ 이 y 보다 의미있는 summary 일때만 기여하게 된다.
기호는 scaling factor alpha 와 max(., 0) 을 적용하는 것을 의미한다.
요약본의 길이가 비슷할수록 좋은 영향을 줄 것이므로 R_L 항을 곱해 usefulness 를 나타낸다.
quality 함수는 유사도를 의미하는 R_c와 유창함을 의미하는 R_f 의 곱으로 표현된다.
전체 훈련을 위한 reward는 따라서 아래와 같이 주어진다.
pretraining task
perturbation을 가하고 prompt 를 추가해 단어들을 (reorder, add, remove) 하는 방식과 원하는 길이만큼 생성하는 능력을 갖춘다.