[NLP] Natural Language Generation

.·2022년 2월 23일
0
  • 문제 정의
    - task가 해결하고자 하는 문제가 무엇인가?
    text 내에서 핵심 문장 추출

  • 데이터셋 소개(대표적인 데이터셋 1개)
    - task를 해결하기 위해 사용할 수 있는데 데이터셋이 무엇인가?
    SubSumE

    • 데이터 구조는 어떻게 생겼는가?
      intent : 요약 intent(사람이 어노테이션)
      summaries : 어노테이션에 할당된 8가지 상태에 대한 json 요약 리스트
      - state_name : 상태 명명
      - sentence_ids : 문장을 표현하는 global id
      - sentences : 문장 표현 리스트
      - use_keywords : 요약 생성시 문서를 찾는 어노테이터에 의해 생성된 키워드
  • SOTA 모델 소개(대표적인 모델 최소 2개 이상)
    - task의 SOTA 모델은 무엇인가?
    HAHSum, MatchSum

    • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명
      HAHSum : constituency parses, and scores those compressions with a neural model 을 통한 압축
      MatchSum : extractive summarization을 semantic text matching problem로 치환
profile
http://s6820w.tistory.com/ 로 블로그 이전

5개의 댓글

comment-user-thumbnail
2022년 2월 23일

좋은글 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 23일

좋은 글 잘 읽었습니다!

답글 달기

저는 HAHSum 모델을 이해하기가 어려웠어요ㅠ 다음에 설명해주시면 좋을 것 같아요!

답글 달기
comment-user-thumbnail
2022년 2월 23일

생소했던 SubSumE 데이터셋에 대한 설명 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 24일

SubSumE라는 데이터에대해 처음 알아보네요 :) 감사합니다

답글 달기