Typical Task
Many to One : 텍스트 분류 Text Classification
One to Many : 자연어생성, 기계번역 등의 분야 NLG, Machine Translation
Many to Many : 문장이 들어가서 문장에 해당하는 결과 출력 POS Tagging, MRC
Benchmark Tests
각종 벤치마크 테스트 데이터셋을 통해, 실제 문제 해결 능력을 가늠하거나, PLM의 성능을 체크할 수 있다.
- GLUE(General Language Understanding Evaluation)
텍스트 분류의 문제로 구성됨,
- MNLI(Multi-Genre Natural Language Inference) :첫번째 문장이 주어지고 두번째 문장이 주어졌을때 문장이 이어지는지 분류하여 문맥을 이해하는지를 평가
- RTE(Recognizing Textual Entailment) : 더 적은 데이터셋을 적용한이진분류
- QQP 주어진 두 문장이 의미적으로 비슷한지 알아내는 task
- STS-B 문장의 유사도를 보면서 1에서부터 5까지 얼마나 비슷한지를 분류
- MRPC 의미적으로 유사한지 보여주는 지표
- QNLI 이진 분류로 두 개의 문장이 주어졌을때 첫번째 문장에 두번째 문장이 제대로 대답했다면 Positive 아니라면 negative로 분류 질문에 대해 잘 이해하고 대답도 잘 이해하는지
- SST-2 단일 문장으로 이루어진 이진 분류
- CoLA 이진 분류로 문장이 언어적으로 용납이 되는지를 분류
- SQuAD(Stanford Question Answering Dataset)
- 토큰 classification many to many
주어진 문서에서 질문에 대한 정답의 시작과 끝의 구간을 리턴해주는 Task
huggingface에서 사용법
from datasets import load_dataset
dataset = load_dataset('squad', split='train')
Korean Benchmark Test Datasets
nsmc
KLUE : 여러 회사에서 합작한 언어모델 평가를 위한 데이터셋
기계번역 등이 정복되고 자연어 처리의 다른 분야가 본격적으로 연구됨에 따라, 정량적인 평가지표의 마련을 위해 PLM의 시대에 앞서 다양한 벤치마크 테스트셋이 구축되기 시작했다. 문제 정의 자체는 다르지만 대부분 입출력 형태는 정해져 있으며, 각 PLM들은 다양한 벤치마크 테스트셋에 대해서 성능을 입증하는 것으로 객관적으로 평가됨
PPL, Loss 이외에도 정량적인 데이터셋이 필요