GLUE (General Language Understanding Evaluation benchmark)
MNLI (Multi-Genre Natural Language Inference)
QQP (Quora Question Paris)
- 두 질문이 의미상 같은지 다른지 분류를 위한 데이터 셋
SST-2 (The Stanford Sentiment Treebank)
- 영화 리뷰 문장에 관한 감성 분석을 위한 데이터셋
CoLA (The Corpus of Linguistic Acceptability)
- 문법적으로 맞는 문장인지 틀린 문장인지 분류를 위한 데이터셋
STS-B (The semantic Textual Similarity Benchmark)
- 뉴스 헤드라인과 사람이 만든 paraphrasing 문장이 의미상 같은지 비교를 위한 데이터셋
MRPC (Microsoft Research Paraphrase Corpus)
- 뉴스의 내용과 사람이 만든 문장이 의미상 같은 문장인지 비교를 위한 데이터셋
RTE (Recognizing Textual Entailment)
WNLI (Winograd NLI)
SQuAD v1.1
CoNLL 2003
SWAG
- Situations With Adversarial Generations, 현재 문장 다음에 이어질 자연스러운 문장을 선택하기 위한 데이터셋
KLUE (Korean Language Understandin Evaluation)
한국어 이해 평가를 위한 데이터셋으로 8개의 task로 구성되어 있다.
Topic Classification(ynat)
Semantic Textual Similarity(sts)
Natural Language Inference(nli)
Named Entity Recognition(ner)
- text의 entity간의 관계를 식별하고 적절한 관계 선택
Dependency Parsing(dp)
- 단어간의 관계 정보 찾기
- 지배소(의미의 중심), 의존소(지배소가 갖는 의미 보완, 수식)의 관계를 찾음
Machine Reading Comprehension(mrc)
- 질의응답의 한 종류로 적절한 답을 지문에서 찾기
Dialogue State Tracking(dst, wos)
-
task 중심 대화 시스템에서 대화 상태 추론하여 사용자의 목적을 추적(slot-value 추출)
-
"중국음식을 먹을거고 가격은 크게 상관 없습니다." -> (food="중국음식", price="dontcare")