[NLP] NLP datasets

hyunsooo·2022년 11월 16일
0

GLUE (General Language Understanding Evaluation benchmark)

MNLI (Multi-Genre Natural Language Inference)

  • 두 문장의 관계 분류를 위한 데이터셋

QQP (Quora Question Paris)

  • 두 질문이 의미상 같은지 다른지 분류를 위한 데이터 셋

SST-2 (The Stanford Sentiment Treebank)

  • 영화 리뷰 문장에 관한 감성 분석을 위한 데이터셋

CoLA (The Corpus of Linguistic Acceptability)

  • 문법적으로 맞는 문장인지 틀린 문장인지 분류를 위한 데이터셋

STS-B (The semantic Textual Similarity Benchmark)

  • 뉴스 헤드라인과 사람이 만든 paraphrasing 문장이 의미상 같은지 비교를 위한 데이터셋

MRPC (Microsoft Research Paraphrase Corpus)

  • 뉴스의 내용과 사람이 만든 문장이 의미상 같은 문장인지 비교를 위한 데이터셋

RTE (Recognizing Textual Entailment)

  • MNLI와 유사하나 상대적으로 적은 데이터셋

WNLI (Winograd NLI)

  • 문장 분류 데이터셋

SQuAD v1.1

  • 질의응답 데이터셋

CoNLL 2003

  • 개체명 분류(NER) 데이터 셋

SWAG

  • Situations With Adversarial Generations, 현재 문장 다음에 이어질 자연스러운 문장을 선택하기 위한 데이터셋

KLUE (Korean Language Understandin Evaluation)

한국어 이해 평가를 위한 데이터셋으로 8개의 task로 구성되어 있다.

Topic Classification(ynat)

  • 주어진 문장의 주제를 예측

Semantic Textual Similarity(sts)

  • 두 문장 사이의 의미적 유사도를 측정

Natural Language Inference(nli)

  • 가설과 전제의 관계 추론

Named Entity Recognition(ner)

  • 개체명(사람-PS, 위치-LC ...) 인식

Relation Extraction(re)

  • text의 entity간의 관계를 식별하고 적절한 관계 선택

Dependency Parsing(dp)

  • 단어간의 관계 정보 찾기
  • 지배소(의미의 중심), 의존소(지배소가 갖는 의미 보완, 수식)의 관계를 찾음

Machine Reading Comprehension(mrc)

  • 질의응답의 한 종류로 적절한 답을 지문에서 찾기

Dialogue State Tracking(dst, wos)

  • task 중심 대화 시스템에서 대화 상태 추론하여 사용자의 목적을 추적(slot-value 추출)

  • "중국음식을 먹을거고 가격은 크게 상관 없습니다." -> (food="중국음식", price="dontcare")

profile
지식 공유

0개의 댓글