[NLP] NLP datasets

hyunsooo·2022년 11월 16일

GLUE (General Language Understanding Evaluation benchmark)

MNLI (Multi-Genre Natural Language Inference)

두 문장의 관계 분류를 위한 데이터셋

QQP (Quora Question Paris)

두 질문이 의미상 같은지 다른지 분류를 위한 데이터 셋

SST-2 (The Stanford Sentiment Treebank)

영화 리뷰 문장에 관한 감성 분석을 위한 데이터셋

CoLA (The Corpus of Linguistic Acceptability)

문법적으로 맞는 문장인지 틀린 문장인지 분류를 위한 데이터셋

STS-B (The semantic Textual Similarity Benchmark)

뉴스 헤드라인과 사람이 만든 paraphrasing 문장이 의미상 같은지 비교를 위한 데이터셋

MRPC (Microsoft Research Paraphrase Corpus)

뉴스의 내용과 사람이 만든 문장이 의미상 같은 문장인지 비교를 위한 데이터셋

RTE (Recognizing Textual Entailment)

MNLI와 유사하나 상대적으로 적은 데이터셋

WNLI (Winograd NLI)

문장 분류 데이터셋

SQuAD v1.1

질의응답 데이터셋

CoNLL 2003

개체명 분류(NER) 데이터 셋

SWAG

Situations With Adversarial Generations, 현재 문장 다음에 이어질 자연스러운 문장을 선택하기 위한 데이터셋

KLUE (Korean Language Understandin Evaluation)

한국어 이해 평가를 위한 데이터셋으로 8개의 task로 구성되어 있다.

Topic Classification(ynat)

주어진 문장의 주제를 예측

Semantic Textual Similarity(sts)

두 문장 사이의 의미적 유사도를 측정

Natural Language Inference(nli)

가설과 전제의 관계 추론

Named Entity Recognition(ner)

개체명(사람-PS, 위치-LC ...) 인식

Relation Extraction(re)

text의 entity간의 관계를 식별하고 적절한 관계 선택

Dependency Parsing(dp)

단어간의 관계 정보 찾기
지배소(의미의 중심), 의존소(지배소가 갖는 의미 보완, 수식)의 관계를 찾음

Machine Reading Comprehension(mrc)

질의응답의 한 종류로 적절한 답을 지문에서 찾기

Dialogue State Tracking(dst, wos)

task 중심 대화 시스템에서 대화 상태 추론하여 사용자의 목적을 추적(slot-value 추출)
"중국음식을 먹을거고 가격은 크게 상관 없습니다." -> (food="중국음식", price="dontcare")

지식 공유

이전 포스트

[MLOps] MLflow

다음 포스트

[NLP] IRQA

0개의 댓글