Interesting Task in NLG

공부하고 싶어 만든 블로그·2022년 2월 23일

NLP

목록 보기

3/4

Natural Language Generation (NLG)

NLP에는 NLU와 NLG가 있다.
NLU(Natural Language Understanding) 자연어 이해: 언어를 이해하는 기술.
NLG(Natural Language Generation) 자연어 생성: 새로운 언어를 생성하는 기술.

NLG 중에서도 Extractive Summarization에 대해 알아보자!

Extractive Summarization

문제 정의

context가 주어졌을 때, 핵심을 나타낼 수 있는 키워드나 문장을 고르는 것.

MatchSum

기존의 Extractive summairzation 모델은 문장 단위의 scoring으로 문서를 요약한다. 그러나 이 방법은 context와 target summary 사이를 적절히 고려하지 못한 요약이라 주장한다.

본 모델은 2 stage로 진행된다. summary 후보군을 추출하고, 매칭하는 방식이다. context와 summary 후보군이 semantic space에서 매칭될 것이라 가정한다.

논문: Extractive Summarization as Text Matching

코드: MatchSum

키워드: Document Summarization, Extractive Summarization, Semantic Text Matching, Text Matching, Text Summarization

학습 자료: 고려대학교 산업경영공학부 DSBA 연구실 Paper Review

BertSumExt

문장에 대한 표현을 만들어주는 BERT를 기반으로 documnet-level-encoder를 제안하여 문서 요약이 가능한 프레임워크를 제시했다.

BERT의 인코더 위에 몇 개의 inter-sentece 트랜스포머 레이어를 추가하였다.

논문: Text Summarization with Pretrained Encoders

코드: github

키워드: BERT, extractive, abstractive, summarization encoder, extractive summarization,

학습 자료: https://aimaster.tistory.com/46

데이터

CNN/DailyMail

CNN과 Daily Mail의 뉴스 기사 데이터셋.

원본문서에서 나타나는 엔티티들을 익명화하여 변환 후, “X”로 명기된 엔티티(단어 또는 구/절)를 찾아야 하는 질문셋 1,384,887건.

그러나 이 데이터셋은 에러가 많이 포함되어 있다는 지적이 있으며, 엔티티에 대한 빈칸 채우기 문제(Cloze type question)는 독해력 난이도가 낮아 사람의 성능과 근접한 연구결과가 도출되고 있어 기계의 독해력 판별에는 변별력이 낮다는 지적이 제기된다.