- Paperswithcode에서 NLG extractive summarization task에 대해서 본인 블로그에 정리해보세요. 아래 3가지 항목에 대해서 정리하세요. (각 항목 고려 사항 참고)
- 문제 정의
- task가 해결하고자 하는 문제가 무엇인가?
- 데이터셋 소개(대표적인 데이터셋 1개)
- task를 해결하기 위해 사용할 수 있는데 데이터셋이 무엇인가?
- 데이터 구조는 어떻게 생겼는가?
- SOTA 모델 소개(대표적인 모델 최소 2개 이상)
- task의 SOTA 모델은 무엇인가?
- 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명
문서, 즉 여러 문장으로 이루어진 글이 주어지면, 해당 글에 존재하는 단어나 문장으로 문서를 요약하는 기술을 의미한다. 즉, Selection-based summarization이다. 이는 문서에 없는 말을 생성해 요약에 활용하는 Abstractive summarization과 대비된다.
기존 문서에 있는 표현을 사용하기 때문에 이상한 표현이 들어갈 가능성이 적어 Abstractive summarization과 비교하면 이상한 문장이 나올 가능성은 낮지만 기존 표현을 그대로 사용하므로 요약의 유연성이나 참신함? 은 상대적으로 부족할 수 있다.
사용가능한 Dataset으로 CNN/Daily mail 데이터셋이 있다. 말그대로 CNN과 Daily mail의 뉴스 기사들을 모은 데이터셋이다. 내부 구조로 article과 highlight가 있는데, article은 기사 원문, highlight는 요약을 의미한다. 다만 이 데이터셋은 Abstractive summarization을 염두에 둔 것인지 highlight의 문구가 article의 표현만으로 구성되어 있진 않았다. Extractive summarization은 원문에서 표현의 중요도를 체크해 높은 중요도를 추출하면 되기 때문에 해당 task에선 highlight를 사용하지 않고 article만 사용해도 충분하지 않을까 생각한다.
SOTA 모델로는 HAHSum, NeRoBERTa가 있다 그 외 순위권에 BertSumExt, PNBERT, HIBERT 등 많은 BERT 계일이 존재하는 것으로 보아 BERT 계열이 해당 task에도 충분히 잘 동작하는 것 같다.
HAHSum은 문서에서 문장을 선택 후, constituency parse란 특정 parsing 기법에 기반하여, parsing tree를 만드는 식으로 compression을 진행하고, 이 compression에 score를 매겨 final summary를 만든다. - NeRoBERTa는 기존 BERT가 문장의 정보를 잘 표현하도록 pretrained 되지 않았기 때문에, RoBERTa를 기반으로 하되 syntactic relation을 파악하기 위해 Nested tree의 일종인 discourse graph와 syntactic graph를 사용하였다.
HAHSum에 대해서 잘 설명해주셨군요 저도 이 모델의 Reference를 찾아보다가 찾기 힘들었는데 정리를 잘 해주셨네요 아무래도 구글 상단에 바로 뜨시겠군요 ㅎㅎ 고생하셨습니다.