Interesting Task in NLG

0

NLP

목록 보기
3/4

Natural Language Generation (NLG)

  • NLP에는 NLU와 NLG가 있다.
    NLU(Natural Language Understanding) 자연어 이해: 언어를 이해하는 기술.
    NLG(Natural Language Generation) 자연어 생성: 새로운 언어를 생성하는 기술.

    NLG 중에서도 Extractive Summarization에 대해 알아보자!

Extractive Summarization

문제 정의

  • context가 주어졌을 때, 핵심을 나타낼 수 있는 키워드나 문장을 고르는 것.

MatchSum

  • 기존의 Extractive summairzation 모델은 문장 단위의 scoring으로 문서를 요약한다. 그러나 이 방법은 context와 target summary 사이를 적절히 고려하지 못한 요약이라 주장한다.
  • 본 모델은 2 stage로 진행된다. summary 후보군을 추출하고, 매칭하는 방식이다. context와 summary 후보군이 semantic space에서 매칭될 것이라 가정한다.
  • 논문: Extractive Summarization as Text Matching
  • 코드: MatchSum
  • 키워드: Document Summarization, Extractive Summarization, Semantic Text Matching, Text Matching, Text Summarization
  • 학습 자료: 고려대학교 산업경영공학부 DSBA 연구실 Paper Review

BertSumExt

  • 문장에 대한 표현을 만들어주는 BERT를 기반으로 documnet-level-encoder를 제안하여 문서 요약이 가능한 프레임워크를 제시했다.
  • BERT의 인코더 위에 몇 개의 inter-sentece 트랜스포머 레이어를 추가하였다.
  • 논문: Text Summarization with Pretrained Encoders
  • 코드: github
  • 키워드: BERT, extractive, abstractive, summarization encoder, extractive summarization,
  • 학습 자료: https://aimaster.tistory.com/46

데이터

  • CNN/DailyMail
  • CNN과 Daily Mail의 뉴스 기사 데이터셋.
  • 원본문서에서 나타나는 엔티티들을 익명화하여 변환 후, “X”로 명기된 엔티티(단어 또는 구/절)를 찾아야 하는 질문셋 1,384,887건.
  • 그러나 이 데이터셋은 에러가 많이 포함되어 있다는 지적이 있으며, 엔티티에 대한 빈칸 채우기 문제(Cloze type question)는 독해력 난이도가 낮아 사람의 성능과 근접한 연구결과가 도출되고 있어 기계의 독해력 판별에는 변별력이 낮다는 지적이 제기된다.
profile
학습의 마무리는 '나의 언어로 설명하기'가 아닐까?

5개의 댓글

comment-user-thumbnail
2022년 2월 23일

좋은 글 감사합니다

답글 달기
comment-user-thumbnail
2022년 2월 23일

각 모델에 대한 상세 내용을 배울 수 있었습니다. 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 23일

NLG task에서는 Transformer 기반 pretrained 모델들이 많이 보이는 것 같습니다. 좋은 글 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 23일

extractive summarization에 대해 알기 쉽게 써주셨네요! 감사합니다!!

답글 달기
comment-user-thumbnail
2022년 2월 24일

BertSumExt을 사용해서 문서의 핵심을 요약하는군요!
bert가 이미 트랜스포머 인코더 레이어를 사용하는 형태로 알고있는데, 그 윗단에 트랜스포머 레이어를 더 쌓아 사용하는 형태가 인상적입니다.

답글 달기