Dataset Load
!pip install datasets
- KLUE dataset LOAD
- ynat(주제 분류), sts(의미 텍스트 유사성), nli(자연어 추론), ner(명명된 개체 인식), re(관계 추출), dp(종속성 구문 분석), mrc(기계 읽기 이해), wos(대화 상태 추적)
from datasets import load_dataset
dataset = load_dataset('klue', 'sts')
print(type(dataset))
dataset.keys()
dataset['train'][0]
huggingface에서 klue dataset 보기
KLUE란?
KLUE-benchmark git
- KLUE(Korean Language Understanding Evaluation, 한국어 이해 평가) 벤치마크는 한국어 모델의 자연어 이해 능력을 평가하기 위한 datset
- Pretrained Language Model(PLM)인 KLUE-BERT, KLUE-RoBERTa를 출시하여 기준 모델 재현
- 언어 : ko-KR
- 8개의 task로 구성
Topic Classification
- TC : ynat(Topic Classification, 주제 분류)
- 주어진 text의 주제를 예측
- 언어 이해 시스템이 보유해야하는 핵심 기능이다.
- 분류 label : 정치, 경제, 사회, 문화, 세계 IT/과학, 스포츠
- 평가 지표 : Macro-F1 점수
Semantic Textual Similarity
- sts(Semantic Textual Similarity, 의미 텍스트 유사성)
- 두 문장 사이의 의미적 동등성의 정도를 측정
- 기계 번역, 요약, QA 등의 다른 NLP 작업에 STS가 필수적이다.
- label : 0(의미 중복 없음) ~ 5(의미 동등) 의 값 혹은 이진값(임계값 3.0)
- 평가 지표 : 실제값일 때 Pearson 상관 계수, 이진값일 때 F1 score
Natural Language Inference
- nli(Natural Language Inference, 자연어 추론) : RTE(텍스트 포함) 인식이라고도 한다.
- 가설 문장과 전제 문장 간의 관계 추론
- label : 참(포함), 거짓(모순), 결정되지 않음(중립)
- 평가 지표 : Accuracy
Named Entity Recognition
- ner(Named Entity Recognition, 명명된 개체 인식)
- text에서 entity의 경계를 감지하고 유형을 분류
- BIO(Begin-Inside-Outside) 태그 지정 체계를 통해 태그 지정.
- text에서 지식을 추출하는 시스템을 구축하기 위해서는 NER이 필수적이다.
- label : 사람(PS), 위치(LC), 조직(OG), 날짜(DT), 시간(TI), 수량(QT)
- 평가 지표 : 개체/문자 수준 Macro-F1 score(정밀도와 재현율을 동시에 최대화)
- re(Relation Extraction, 관계 추출)
- text에서 entity 쌍 간의 의미 관계를 식별하고 적절한 관계를 선택한다.
- 단일 문장 분류 작업
- label : 0(관계 없음) ~ 30. 18가지는 사람에 관련된 관계, 11가지는 조직 관련된 관계이다.
- 평가 지표 : micro-F1 score, AUPRC ( 정밀도 재현율 곡선 아래 면적 )
Dependency Parsing
- dp(Dependency Parsing, 종속성 구문 분석)
- 단어간의 관계 정보 찾기
- 평가 지표 : UAS(Unlabeled Attachment Score), LAS(Labeled Attachment Score)
- 평가하는 동안 누적 빈도가 1% 미만인 레이블이 LAS에 미치는 부정적인 영향을 보완하기 위해 하단에서 OTHERS 레이블로 그룹화 됨
Machine Reading Comprehension
- mrc(Machine Reading Comprehension, 기계 읽기 이해)
- text에 대한 질문에 답하기
- input : 질문(의역, 다중 문장 추론, 답변 불가)과 text가 연결된 sequence
- output : 답변, text 내에서 예측된 답변 범위의 시작 및 끝 위치
- 평가 지표 : Exact Match(정확한 일치), ROUGE-W
- 다른 데이터셋 : KorQuAD(The Korean Question Answering Dataset, 한국어 질의응답 데이터셋)
Dialogue State Tracking
- DST : wos(Dialogue State Tracking, 대화 상태 추적)
- task 중심 대화 시스템에서 agent의 대화 상태 추론하여 slot 추출
“예술의 전당까지 가는 택시 좀 불러줘”
=> 의도 : “택시호출”, “목적지(slot)=예술의 전당(value)”
BERT를 활용한 챗봇 시스템
- 평가 지표 : JGA(공동 목표 정확도, ground-truth와 정확히 일치하는지 확인), slot F1 score
참조
KLUE-benchmark
huggingface에서 klue dataset 보기
KLUE-benchmark git
BERT를 활용한 챗봇 시스템