국내 NLP 데이터 구축 프로젝트
국내 언어 데이터 구축 흐름
국가주도
엑소브레인
모두의 말뭉치
우리말샘
AI 허브
- 데이터터별로 데이터 설명서, 구축 활용 가이드 제공
데이터 댐
기업주도
KorQuAD (LG CNS)
KLUE
한국어 이해 능력 평가를 위한 벤치마크
- KLUE TC
- 뉴스 헤드라인에서 정치, 경제, 사회, 문화 등 7개 주제 분류 task
- KLUE DP
- KLUE NLI
- 전제가 주어졌을 때, 두 문장 유사도를 통해 가설의 참, 거짓, 중립을 결정
- KLUE NER
- KLUE RE
- KLUE MRC
KorNLU (kakao brain)
KOBEST (SKT)
개인 및 학계 주도
NSMC
- Naver Sentiment Movie Corpus
- Naver 영화에서 크롤링한 데이터를 활용한 감정분석 데이터셋
BEEP
UWordMap
해외 NLP 벤치마크 데이터
NLP (Natural Language Processing)
NLU (Natural Language Understanding) + NLG (Natural Language Generation)
NLU는 보통 Encoder 기반, NLG는 Decoder 또는 Encoder-Decoder 기반 모델 사용
데이터셋
SNLI
CoNLL
TACRED
WMT
- 기계 번역 학회에서 공개한 다국어 번역 데이터셋
Wizard-of-Oz
DSTC
- Dialog System Technology Challenges
- 대화 시스템 경진대회
CNN/Daily Mail
SQuAD, SQuAD2.0
GLUE Benchmark
- 가장 유명한 영어 dataset
- 다양한 task 데이터 포함
SuperGLUE Benchmark
Gem Benchmark
Big Benchmark dataset
- 200개 이상 task를 수행하도록 하는 benchmark
- LLM 평가에 사용
Multilingual Benchmark 데이터
Timeline
NLLB
-
다양한 low resource language 포함
-
Low resource와 high resource 간의 성능 격차를 줄이기 위함
※ 영어와 같이 사용량이 많은 언어가 high resource, 네팔어처럼 사용량이 상대적으로 적은 언어가 low resource에 해당
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※