최신 국내 및 해외 NLP 데이터

홍찬우·2023년 7월 29일

DL NLP 네이버 부스트캠프

0

국내 NLP 데이터 구축 프로젝트

국내 언어 데이터 구축 흐름

국가주도

엑소브레인

내 몸 바깥에 있는 인공 두뇌
3단계로 진행

모두의 말뭉치

누구나 말뭉치 개선 의견 제안 가능

우리말샘

누구나 자유롭게 제작, 이용하는 국어 사전

AI 허브

데이터터별로 데이터 설명서, 구축 활용 가이드 제공

데이터 댐

7개 사업으로 이루어짐

기업주도

KorQuAD (LG CNS)

기계독해를 위한 한국어 질의응답 데이터셋

KLUE

한국어 이해 능력 평가를 위한 벤치마크

KLUE TC
- 뉴스 헤드라인에서 정치, 경제, 사회, 문화 등 7개 주제 분류 task
KLUE DP
- 문장 내 의존 관계 파악 task
KLUE NLI
- 전제가 주어졌을 때, 두 문장 유사도를 통해 가설의 참, 거짓, 중립을 결정
KLUE NER
- 문장 내 Entity 추출 task
KLUE RE
- 문장 내 개체 관계 추론 task
KLUE MRC
- 질문이 주어졌을 때 답을 찾는 task

KorNLU (kakao brain)

KOBEST (SKT)

개인 및 학계 주도

NSMC

Naver Sentiment Movie Corpus
Naver 영화에서 크롤링한 데이터를 활용한 감정분석 데이터셋

Korean Comment Corpus

온라인 뉴스에서 댓글과 대댓글 수집

BEEP

욕설 데이터

UWordMap

단어의 중의성을 해석에 주로 사용

해외 NLP 벤치마크 데이터

NLP (Natural Language Processing)

NLU (Natural Language Understanding) + NLG (Natural Language Generation)

NLU는 보통 Encoder 기반, NLG는 Decoder 또는 Encoder-Decoder 기반 모델 사용

데이터셋

SNLI

주어진 문장들의 관계를 구분

CoNLL

영어로 독일어로 구성된 개체명 인식 데이터셋

TACRED

관계 추출 task를 위한 데이터

WMT

기계 번역 학회에서 공개한 다국어 번역 데이터셋

Wizard-of-Oz

대화 시스템

DSTC

Dialog System Technology Challenges
대화 시스템 경진대회

CNN/Daily Mail

문서 요약 말뭉치

SQuAD, SQuAD2.0

기계 독해 및 질의응답 데이터

GLUE Benchmark

가장 유명한 영어 dataset
다양한 task 데이터 포함

SuperGLUE Benchmark

Gem Benchmark

Generation dataset

Big Benchmark dataset

200개 이상 task를 수행하도록 하는 benchmark
LLM 평가에 사용

Multilingual Benchmark 데이터

Timeline

NLLB

다양한 low resource language 포함
Low resource와 high resource 간의 성능 격차를 줄이기 위함

※ 영어와 같이 사용량이 많은 언어가 high resource, 네팔어처럼 사용량이 상대적으로 적은 언어가 low resource에 해당

※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

AI-Kid

이전 포스트

Data-Centric AI

다음 포스트

NLP 분야 특이한 Task 및 Data

0개의 댓글

관련 채용 정보