KLUE Dataset Load

Hyun·2022년 5월 23일
0

기타등등

목록 보기
2/11

Dataset Load

  • dataset 모듈 설치 및 import
!pip install datasets
  • KLUE dataset LOAD
    • ynat(주제 분류), sts(의미 텍스트 유사성), nli(자연어 추론), ner(명명된 개체 인식), re(관계 추출), dp(종속성 구문 분석), mrc(기계 읽기 이해), wos(대화 상태 추적)
from datasets import load_dataset
dataset = load_dataset('klue', 'sts')	# klue dataset 중에 sts를 가져옴
  • type과 구조 확인
print(type(dataset))		# <class 'datasets.arrow_dataset.Dataset'>
dataset.keys()

  • 데이터셋 예시
dataset['train'][0]


huggingface에서 klue dataset 보기

KLUE란?

KLUE-benchmark git

  • KLUE(Korean Language Understanding Evaluation, 한국어 이해 평가) 벤치마크는 한국어 모델의 자연어 이해 능력을 평가하기 위한 datset
  • Pretrained Language Model(PLM)인 KLUE-BERT, KLUE-RoBERTa를 출시하여 기준 모델 재현
  • 언어 : ko-KR
  • 8개의 task로 구성

Topic Classification

  • TC : ynat(Topic Classification, 주제 분류)
    • 주어진 text의 주제를 예측
    • 언어 이해 시스템이 보유해야하는 핵심 기능이다.
    • 분류 label : 정치, 경제, 사회, 문화, 세계 IT/과학, 스포츠
    • 평가 지표 : Macro-F1 점수

Semantic Textual Similarity

  • sts(Semantic Textual Similarity, 의미 텍스트 유사성)
    • 두 문장 사이의 의미적 동등성의 정도를 측정
    • 기계 번역, 요약, QA 등의 다른 NLP 작업에 STS가 필수적이다.
    • label : 0(의미 중복 없음) ~ 5(의미 동등) 의 값 혹은 이진값(임계값 3.0)
    • 평가 지표 : 실제값일 때 Pearson 상관 계수, 이진값일 때 F1 score

Natural Language Inference

  • nli(Natural Language Inference, 자연어 추론) : RTE(텍스트 포함) 인식이라고도 한다.
    • 가설 문장과 전제 문장 간의 관계 추론
    • label : 참(포함), 거짓(모순), 결정되지 않음(중립)
    • 평가 지표 : Accuracy

Named Entity Recognition

  • ner(Named Entity Recognition, 명명된 개체 인식)
    • text에서 entity의 경계를 감지하고 유형을 분류
    • BIO(Begin-Inside-Outside) 태그 지정 체계를 통해 태그 지정.
    • text에서 지식을 추출하는 시스템을 구축하기 위해서는 NER이 필수적이다.
    • label : 사람(PS), 위치(LC), 조직(OG), 날짜(DT), 시간(TI), 수량(QT)
    • 평가 지표 : 개체/문자 수준 Macro-F1 score(정밀도와 재현율을 동시에 최대화)

Relation Extraction

  • re(Relation Extraction, 관계 추출)
    • text에서 entity 쌍 간의 의미 관계를 식별하고 적절한 관계를 선택한다.
    • 단일 문장 분류 작업
    • label : 0(관계 없음) ~ 30. 18가지는 사람에 관련된 관계, 11가지는 조직 관련된 관계이다.
    • 평가 지표 : micro-F1 score, AUPRC ( 정밀도 재현율 곡선 아래 면적 )

Dependency Parsing

  • dp(Dependency Parsing, 종속성 구문 분석)
    • 단어간의 관계 정보 찾기
    • 평가 지표 : UAS(Unlabeled Attachment Score), LAS(Labeled Attachment Score)
      • 평가하는 동안 누적 빈도가 1% 미만인 레이블이 LAS에 미치는 부정적인 영향을 보완하기 위해 하단에서 OTHERS 레이블로 그룹화 됨

Machine Reading Comprehension

  • mrc(Machine Reading Comprehension, 기계 읽기 이해)
    • text에 대한 질문에 답하기
    • input : 질문(의역, 다중 문장 추론, 답변 불가)과 text가 연결된 sequence
    • output : 답변, text 내에서 예측된 답변 범위의 시작 및 끝 위치
    • 평가 지표 : Exact Match(정확한 일치), ROUGE-W
    • 다른 데이터셋 : KorQuAD(The Korean Question Answering Dataset, 한국어 질의응답 데이터셋)

Dialogue State Tracking

  • DST : wos(Dialogue State Tracking, 대화 상태 추적)
    • task 중심 대화 시스템에서 agent의 대화 상태 추론하여 slot 추출

      “예술의 전당까지 가는 택시 좀 불러줘”
      => 의도 : “택시호출”, “목적지(slot)=예술의 전당(value)”
      BERT를 활용한 챗봇 시스템

    • 평가 지표 : JGA(공동 목표 정확도, ground-truth와 정확히 일치하는지 확인), slot F1 score

참조

KLUE-benchmark
huggingface에서 klue dataset 보기
KLUE-benchmark git
BERT를 활용한 챗봇 시스템

0개의 댓글