[Dataset] XSum

Wonkwang·2023년 8월 14일
0

1. Introduction

  • The XSum dataset consists of 226,711 Wayback archived BBC articles ranging over almost a decade (2010 to 2017) and covering a wide variety of domains (e.g., News, Politics, Sports, Weather, Business, Technology, Science, Health, Family, Education, Entertainment and Arts).

2. 특징

  • 언어: English

  • XSum = Extreme Summarization Dataset

    • Single-document 에 대한 abstractive summarization 데이터셋
    • 하나의 document 가 존재하고, “What is the article about?” 이라는 물음에 대해 짧은 one-sentence summarization 하는 것이 목적
    • 또다른 대표 benchmark set인 CNN DailyMail 에 비해 gold summary 가 더욱 abstractive 함. 즉, extractive model 로 테스트 하면 성능이 낮게 나옴.
  • Datasets 크기

    • train: 203,577
    • validation: 11,305
    • test: 11,301
  • Datasets 평균 length

    • Document
      • word: 431.07
      • sentence: 19.77
    • Summary
      • word: 23.26
      • sentence: 1.00 (fixed)
  • Vocab size

    • Document: 399,147
    • Summary: 81,092
profile
ML/DL Engineer 입니다. 유용한 정보들을 기록해두려 합니다.

0개의 댓글