[프리온보딩 AI/ML] 1주차 Day 3 과제

bluegun·2022년 2월 23일
0
  1. Paperswithcode에서 NLG extractive summarization task에 대해서 본인 블로그에 정리해보세요. 아래 3가지 항목에 대해서 정리하세요. (각 항목 고려 사항 참고)
  • 문제 정의
    • task가 해결하고자 하는 문제가 무엇인가?
  • 데이터셋 소개(대표적인 데이터셋 1개)
    • task를 해결하기 위해 사용할 수 있는데 데이터셋이 무엇인가?
    • 데이터 구조는 어떻게 생겼는가?
  • SOTA 모델 소개(대표적인 모델 최소 2개 이상)
    • task의 SOTA 모델은 무엇인가?
    • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명

Extractive summarization

  • 문서, 즉 여러 문장으로 이루어진 글이 주어지면, 해당 글에 존재하는 단어나 문장으로 문서를 요약하는 기술을 의미한다. 즉, Selection-based summarization이다. 이는 문서에 없는 말을 생성해 요약에 활용하는 Abstractive summarization과 대비된다.

  • 기존 문서에 있는 표현을 사용하기 때문에 이상한 표현이 들어갈 가능성이 적어 Abstractive summarization과 비교하면 이상한 문장이 나올 가능성은 낮지만 기존 표현을 그대로 사용하므로 요약의 유연성이나 참신함? 은 상대적으로 부족할 수 있다.

  • 사용가능한 Dataset으로 CNN/Daily mail 데이터셋이 있다. 말그대로 CNN과 Daily mail의 뉴스 기사들을 모은 데이터셋이다. 내부 구조로 article과 highlight가 있는데, article은 기사 원문, highlight는 요약을 의미한다. 다만 이 데이터셋은 Abstractive summarization을 염두에 둔 것인지 highlight의 문구가 article의 표현만으로 구성되어 있진 않았다. Extractive summarization은 원문에서 표현의 중요도를 체크해 높은 중요도를 추출하면 되기 때문에 해당 task에선 highlight를 사용하지 않고 article만 사용해도 충분하지 않을까 생각한다.

  • SOTA 모델로는 HAHSum, NeRoBERTa가 있다 그 외 순위권에 BertSumExt, PNBERT, HIBERT 등 많은 BERT 계일이 존재하는 것으로 보아 BERT 계열이 해당 task에도 충분히 잘 동작하는 것 같다.

  • HAHSum은 문서에서 문장을 선택 후, constituency parse란 특정 parsing 기법에 기반하여, parsing tree를 만드는 식으로 compression을 진행하고, 이 compression에 score를 매겨 final summary를 만든다. - NeRoBERTa는 기존 BERT가 문장의 정보를 잘 표현하도록 pretrained 되지 않았기 때문에, RoBERTa를 기반으로 하되 syntactic relation을 파악하기 위해 Nested tree의 일종인 discourse graph와 syntactic graph를 사용하였다.

3개의 댓글

comment-user-thumbnail
2022년 2월 23일

HAHSum에 대해서 잘 설명해주셨군요 저도 이 모델의 Reference를 찾아보다가 찾기 힘들었는데 정리를 잘 해주셨네요 아무래도 구글 상단에 바로 뜨시겠군요 ㅎㅎ 고생하셨습니다.

답글 달기
comment-user-thumbnail
2022년 2월 23일

HAHSum 요약을 결국 포기했는데, 설명을 읽고 나니 조금 더 이해가 짜이는 기분이에요. parsing tree 키워드를 살펴봐야겠네요. 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 23일

아직 읽어보지 못한 HaHSum과 NeRoBERTa가 있어서 좋았습니다. 더 찾아봐야겠네요. 고생하셨습니다.

답글 달기