Text Summarization(문장 요약)은 원지문에서 중요도가 높은 정보를 추려 요약하는 것으로 정의된다.
수 많은 정보가 넘치는 인터넷 내에서 유의미한 정보로 가공한다는 것은 중요한 분야일 것이다.
개인적으로는 youtube와 같이 영상 정보 역시 활발히 제공되는 현재, 영상 내 내용 요약과 같은 서비스 역시 필요하게 될 것이라 생각된다.
과학 및 의학 정보 공유 사이트인 Pubmed에서 수집한 정보를 바탕으로 다양한 형태의 가공이 이루어져 있다.
가공 및 labeling 방식에 따라 여러 dataset을 제공하는데, dataset별 세부 정보는 LINQS에서 확인하고 다운받을 수 있다.
data의 구조는 각 data마다 상이하기 때문에 상황에 맞게 필요한 dataset을 확인하는 방법이 좋을 것으로 보인다.
HAT-BART는 기존의 document 레벨의 seq2seq로 진행되던 model의 방식에서 발전하여 token 레벨, 문장 레벨, 문단 레벨로 다양화한 단계의 seq2seq 진행방식을 지원하기 위해 설계되었다.
Hierarchical Learning for Generation with Long Source Sequences
DANCER PEGASUS model은 소설 data를 기반한 긴 문서를 분절하여 multiple source-target 쌍으로 만들어 학습되었다. 이런 방식은 문서 요약을 각 파트에 따라 개별적으로 진행하도록 만들었다. 이렇게 분리된 요약은 최종적인 결과물에 합쳐져 더욱 효율적인 문서 요약을 가능하게 했다.
A Divide-and-Conquer Approach to the Summarization of Long Documents
NLP를 공부하면서 그 하위에 있는 분야인 NLU, NLG를 모두 다뤄보았다.
NLU와 NLG를 분리하여 공부하다보니 결국 NLP 분야에 task들은 NLU와 NLG를 모두 잘 이해하고, 유기적으로 활용할 수 있어야겠다는 생각이 들었다.
하나의 application은 만드는 데에 있어 하나의 기술만을 요구하지 않고, 여러 기술을 종합하여 다룰 줄 알아야 할 것이다.
좋은 글 감사합니다