[Week 1-3] NLG task 분석 과제

yerim kim·2022년 2월 23일
0

wanted_preOnBoarding

목록 보기
3/4

1. NLG(Natural Language Generation)

1-1. Text Abbreviation

1-2. Text Expansion

1-3. Text Rewriting


2. Text Summarization

2-1. 문제 정의

  • Text Summarization(문장 요약)은 원지문에서 중요도가 높은 정보를 추려 요약하는 것으로 정의된다.

  • 수 많은 정보가 넘치는 인터넷 내에서 유의미한 정보로 가공한다는 것은 중요한 분야일 것이다.

  • 개인적으로는 youtube와 같이 영상 정보 역시 활발히 제공되는 현재, 영상 내 내용 요약과 같은 서비스 역시 필요하게 될 것이라 생각된다.

2-2. data 소개

  • Pubmed dataset

  • 과학 및 의학 정보 공유 사이트인 Pubmed에서 수집한 정보를 바탕으로 다양한 형태의 가공이 이루어져 있다.

  • 가공 및 labeling 방식에 따라 여러 dataset을 제공하는데, dataset별 세부 정보는 LINQS에서 확인하고 다운받을 수 있다.

  • data의 구조는 각 data마다 상이하기 때문에 상황에 맞게 필요한 dataset을 확인하는 방법이 좋을 것으로 보인다.

2-3. SOTA models

1) HAT-BART

2) DANCER PEGASUS

  • DANCER PEGASUS model은 소설 data를 기반한 긴 문서를 분절하여 multiple source-target 쌍으로 만들어 학습되었다. 이런 방식은 문서 요약을 각 파트에 따라 개별적으로 진행하도록 만들었다. 이렇게 분리된 요약은 최종적인 결과물에 합쳐져 더욱 효율적인 문서 요약을 가능하게 했다.

  • A Divide-and-Conquer Approach to the Summarization of Long Documents


마치며,

  1. NLP를 공부하면서 그 하위에 있는 분야인 NLU, NLG를 모두 다뤄보았다.

  2. NLU와 NLG를 분리하여 공부하다보니 결국 NLP 분야에 task들은 NLU와 NLG를 모두 잘 이해하고, 유기적으로 활용할 수 있어야겠다는 생각이 들었다.

  3. 하나의 application은 만드는 데에 있어 하나의 기술만을 요구하지 않고, 여러 기술을 종합하여 다룰 줄 알아야 할 것이다.

profile
데이터 엔지니어를 향해

5개의 댓글

comment-user-thumbnail
2022년 2월 23일

좋은 글 감사합니다

답글 달기

cnn dataset 만 아는데, pubmed dataset은 처음 들어봤어요! 소개해주셔서 감사합니다

답글 달기
comment-user-thumbnail
2022년 2월 23일

추후에는 NLU와 NLG의 분류가 모호한 과제들도 더 많이 생길 것 같습니다. 좋은 글 감사합니다.

답글 달기
comment-user-thumbnail
2022년 2월 23일

과학과 의학 분야에서도 NLG를 사용하는군요! 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 24일

과학 및 의학 데이터셋은 매우 구하기 힘든걸로 알고있는데, Pubmed dataset과 같이 공유되는 의학 데이터가 있군요 :) 귀하고 좋은 자료 소개해주셔서 감사합니다

답글 달기