Dataset: 국내 및 해외 NLP 데이터 구축 프로젝트

국부은하군·2024년 11월 1일

benchmark dataset

Data-Centric & Dataset

목록 보기

7/9

1. 국내 NLP 데이터 구축 프로젝트

국내 NLP 데이터 구축 프로젝트는 크게 국가 기관 주도, 기업 주도, 개인 및 학계 주도로 나뉩니다. 각 주체가 기여한 주요 프로젝트들을 상세히 살펴보겠습니다.

1.1 국가 기관 주도

1.1.1 21세기 세종 계획 (1997-2007, 국립국어원)

21세기 세종 계획은 현대 국어, 역사 자료, 북한어 등 다양한 분야의 말뭉치 2억 어절을 구축한 대규모 국어 정보화 프로젝트입니다. 이 계획은 한국어의 디지털화와 NLP 연구를 위한 기초 데이터를 제공하기 위해 1997년부터 2007년까지 진행되었습니다. 주요 성과로는 다음과 같은 내용이 포함됩니다:

현대 국어와 역사 자료 구축: 총 2억 어절에 달하는 방대한 양의 데이터가 XML 형식으로 구축되어 국어 정보나눔터를 통해 공개되었습니다. 이는 한국어의 기초 자료로 활용되었으며, 이후 DVD로도 배포되었습니다.
언어 규범 및 검색 시스템 개발: 맞춤법, 표준어 규정, 외래어/로마자 표기법 등의 검색 시스템이 개발되어 국어 어휘의 역사적 발전과 남북한 방언 비교 연구에 활용되었습니다.
전자사전 개발: 체언, 용언, 고유명사 등 약 57만 항목을 구축한 전자사전이 포함되어 있으며, 지능형 형태소 분석기 등의 활용 도구도 개발되었습니다.

1.1.2 KAIST Corpus (1997-2005, KAIST)

KAIST는 1997년부터 2005년까지 순차적으로 한국어와 다국어 코퍼스를 공개하였습니다. 이 데이터셋은 Semantic Web Research Center를 통해 제공되었으며, 한국어와 다양한 언어 간의 비교 연구 및 멀티모달 언어 데이터 연구를 위해 활용되었습니다.

1.1.3 엑소브레인 (2013-2023, ETRI)

엑소브레인 프로젝트는 한국전자통신연구원(ETRI)에서 진행한 프로젝트로, 언어를 이해하고 지식을 학습하여 전문가 수준의 지식을 서비스하는 언어 지능 소프트웨어(SW)를 개발하기 위한 목표를 가지고 있습니다. 프로젝트는 3단계로 나누어 진행되었습니다:

1단계: 일반 분야 대상 분석형 엑소브레인 SW 기반 기술 개발
2단계: 전문 분야 대상 응용 기술 개발
3단계: 설명 가능한 심층 질의응답 엑소브레인 SW 상용화 기술 개발

엑소브레인은 AI API 형태로 공개되어 NLP 연구자들에게 큰 도움이 되고 있습니다.

1.1.4 모두의 말뭉치 (2016~, 국립국어원)

모두의 말뭉치는 인공지능의 한국어 처리 능력 향상을 위한 한국어 학습 자료 공개 플랫폼입니다. 기존 21세기 세종 계획에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였습니다. 다층위 주석이 포함된 말뭉치를 제공하며, 형태, 구문, 어휘 의미, 의미역, 개체명, 상호 참조 등의 다양한 주석을 JSON 형식으로 포함하고 있습니다.

1.1.5 우리말샘 (2016~, 국립국어원)

우리말샘은 누구나 자유롭게 제작하고 이용할 수 있는 국어사전 프로젝트입니다. 오픈 API를 제공하며, GitHub에서 관련 코드를 활용하여 다양한 응용 프로그램에서 국어 데이터를 사용할 수 있습니다.

1.1.6 AI 허브 (2016~, NIA)

AI 허브는 한국정보화진흥원(NIA)에서 운영하는 플랫폼으로, AI 기술 및 제품 개발에 필요한 다양한 데이터를 제공하는 역할을 합니다. AI 허브는 이미지, 음성, 언어, 헬스케어 등 여러 분야에 걸쳐 다양한 데이터셋을 제공하며, 특히 한국어 처리 능력을 향상시키기 위한 대규모 언어 데이터도 포함하고 있습니다. JSON, 엑셀 등 다양한 형식으로 데이터를 제공하며, 실제 산업계의 수요를 반영한 자원을 구축하여 AI 연구자와 기업들이 쉽게 접근하고 활용할 수 있도록 하고 있습니다.

1.2 기업 주도

1.2.1 KorQuAD (2019, LG CNS)

KorQuAD는 스탠포드 대학교의 SQuAD를 벤치마킹하여 개발된 한국어 기계 독해(Machine Reading Comprehension) 데이터셋입니다. KorQuAD 1.0은 약 7만 쌍의 질의응답 데이터를 포함하고 있으며, 2.0 버전은 이보다 확장된 10만 쌍 이상의 데이터를 포함합니다. 이는 웹 문서 기반의 질의응답 모델 학습에 필수적인 자원을 제공합니다.

1.2.2 KLUE (2021~, Upstage)

KLUE(Korean Language Understanding Evaluation)는 한국어 이해 능력을 평가하기 위한 벤치마크 데이터셋입니다. 주요 Task는 다음과 같습니다:

주제 분류 (Topic Classification): 뉴스 헤드라인을 정치, 경제, 사회 등으로 분류합니다.
의존 구문 분석 (Dependency Parsing): 문장 내의 단어들 간의 의존 관계를 분석합니다.
자연어 추론 (Natural Language Inference, NLI): 두 문장의 유사도를 평가하여 참, 거짓, 중립을 결정합니다.
개체명 인식 (Named Entity Recognition, NER): 문장에서 사람, 장소, 단체의 이름 등 개체명을 추출합니다.

1.2.3 KorNLI & KorSTS (2020, Kakao Brain)

KorNLI와 KorSTS는 카카오브레인에서 개발한 한국어 자연어 추론(NLI)과 문장 의미 유사도(STS) 벤치마크 데이터셋입니다.

KorNLI: 영어로 된 자연어 추론 데이터셋을 기계 번역하여 한국어로 공개한 것으로, 주어진 전제와 가설 간의 관계를 판단합니다. 관계는 참(entailment), 중립(neutral), 거짓(contradiction) 중 하나로 결정됩니다.
KorSTS: 문장 간의 의미적 유사성을 평가하기 위한 데이터셋으로, 영어 STS 데이터를 한국어로 번역하여 제작되었습니다. 이 데이터는 문장 쌍의 유사도를 0에서 5까지 점수로 평가합니다.

1.2.4 KOBEST (2022, SKT)

KOBEST는 한국어 이해 능력 평가를 위한 벤치마크로, 다양한 Task를 포함하고 있습니다.

KoBEST-BoolQ: 주어진 문단을 바탕으로 질문이 참인지 거짓인지 판단하는 Task입니다.
KoBEST-COPA: 주어진 전제에 대한 원인이나 결과를 선택하는 Task입니다.
KoBEST-WiC: 두 문맥에서 동일한 단어가 같은 의미로 사용되는지 판별하는 Task입니다.
KoBEST-HellaSwag: 주어진 문맥 뒤에 나타날 문장을 선택하는 Task입니다.
KoBEST-SentiNeg: 부정문의 polarity(긍정/부정)를 예측하는 Task입니다.

1.3 개인 및 학계 주도

1.3.1 NSMC (2016, 개인)

NSMC(Naver Sentiment Movie Corpus)는 네이버 영화에서 크롤링한 리뷰 데이터를 기반으로 제작된 감정 분석 데이터셋입니다. 데이터는 긍정과 부정을 라벨로 제공하며, 감성 분석 연구에 많이 활용됩니다. 이 데이터셋은 한국어 텍스트 감성 분석 모델의 학습 및 평가에 중요한 역할을 하고 있습니다.

1.3.2 Korean Hate Speech - BEEP (2020, 개인)

Korean Hate Speech - BEEP 데이터셋은 한국 연예 뉴스 플랫폼의 댓글을 수집하여 구축된 혐오 표현 데이터셋입니다. 라벨이 지정된 버전과 그렇지 않은 버전이 있으며, 혐오 표현, 성별 편향, 공격성 등 다양한 요소를 분석할 수 있도록 데이터가 구성되어 있습니다.

1.3.3 KorLex (부산대학교)

KorLex는 WordNet의 구조를 한국어로 확장한 데이터베이스로, 부산대학교 권혁철 교수와 윤애선 교수가 주도하여 개발했습니다. WordNet과 유사하게 단어를 유의어 집단으로 분류하며, 각 단어들 간의 다양한 의미 관계를 기록하여 NLP 연구에 유용한 자원을 제공합니다.

2. 해외 NLP Benchmark 데이터 소개

해외에서도 다양한 NLP 벤치마크 데이터셋이 개발되어 연구에 활용되고 있습니다. 데이터셋은 Natural Language Understanding (NLU), Natural Language Generation (NLG), 그리고 NLU + NLG를 모두 포함하는 데이터셋으로 나뉩니다.

2.1 Natural Language Understanding (NLU)

2.1.1 SNLI (Stanford Natural Language Inference)

SNLI는 주어진 문장들의 관계를 **모순 (contradiction), 중립 (neutral), 함의 (entailment)**로 구분하는 데이터셋으로, 자연어 추론 모델의 학습 및 평가에 사용됩니다.

2.1.2 CoNLL-2003 Named Entity Recognition (NER)

CoNLL-2003 NER 데이터셋은 영어와 독일어로 구성된 개체명 인식 데이터셋으로, 사람, 장소, 단체 등의 이름을 추출하는 Task를 수행하기 위해 사용됩니다.

2.1.3 TACRED (Relation Extraction)

TACRED는 문장의 주어(subject, head entity)와 목적어(object, tail entity) 사이의 관계를 추출하는 Task를 위한 데이터셋으로, 뉴스 및 웹 포럼 문서에서 추출된 문장들을 활용하여 구성되었습니다.

2.2 Natural Language Generation (NLG)

2.2.1 WMT (Workshop on Machine Translation)

WMT는 2014년부터 매년 개최된 기계 번역 학회에서 공개한 다국어 번역 데이터셋으로, 뉴스, 바이오, 멀티모달 데이터 등 다양한 분야의 병렬 말뭉치로 구성되어 있습니다.

2.2.2 CNN/Daily Mail (Text Summarization)

CNN/Daily Mail 데이터셋은 뉴스 기사와 해당 기사의 요약문이 쌍을 이루는 데이터셋으로, 문서 요약 모델 학습에 사용됩니다. 약 28만 건의 학습 데이터와 1만여 건의 검증 및 평가 데이터로 구성되어 있습니다.\

2.2.3 SQuAD (Stanford Question Answering Dataset)

SQuAD는 스탠포드 대학교에서 개발한 기계 독해(Machine Reading Comprehension) 벤치마크 데이터셋입니다. 문서에서 특정 질문에 대한 답을 찾는 Task로 구성되어 있으며, 이는 자연어 이해와 질의응답 시스템의 학습 및 평가에 널리 사용됩니다. SQuAD 1.1은 약 10만 개의 질의응답 쌍으로 구성되어 있으며, SQuAD 2.0은 이를 확장하여 일부 질문에는 답변이 없는 경우도 포함하여 모델이 답이 없는 질문도 구분할 수 있도록 했습니다.

2.2.4 GLUE (General Language Understanding Evaluation)

GLUE는 다양한 자연어 이해 Task를 포함하는 벤치마크 데이터셋으로, 자연어 추론, 문장 유사도, 텍스트 분류 등의 과제를 포함하고 있습니다. 이는 자연어 처리 모델의 일반적인 이해 능력을 평가하기 위한 표준 벤치마크로 사용됩니다. GLUE는 이후 SuperGLUE로 확장되어 더 어려운 Task를 포함하게 되었으며, 최신 모델의 성능을 평가하는 데 활용되고 있습니다.

2.2.5 Big Bench (BIG-bench)

Big Bench는 대규모 언어 모델의 능력을 평가하기 위해 다양한 자연어 처리(NLP) 과제를 포함한 벤치마크입니다. 연구자와 엔지니어들이 협력하여 200개 이상의 Task를 개발하였으며, 일반적인 자연어 이해뿐만 아니라 창의성, 논리적 사고, 수학적 추론 등 다양한 능력을 측정하는 과제를 포함하고 있습니다. 이는 언어 모델이 인간과 유사한 수준의 이해와 문제 해결 능력을 갖추었는지 평가하는 데 사용됩니다.

2.2.6 MMLU (Massive Multitask Language Understanding)

MMLU는 대규모 멀티태스크 언어 이해 벤치마크로, 다양한 학문 분야와 수준의 57개 과제를 포함하고 있습니다. 이 데이터셋은 역사, 과학, 수학, 경제학, 의학 등 여러 주제에 걸쳐 언어 모델의 능력을 평가합니다. 특히, 인간의 지식 수준에 근접한 성과를 내는지를 평가하는 데 중점을 두고 있어, 모델의 전반적인 이해 능력을 측정하는 데 중요한 역할을 하고 있습니다.

2.3 NLU + NLG

2.3.1 Wizard-of-Oz Dialogue System

Wizard-of-Oz 데이터셋은 대화 시스템의 데이터를 수집하기 위해 고안된 방식으로, 사용자가 AI 시스템과 대화하는 것처럼 유도하여 데이터를 수집합니다. 이 방식은 대화 상태 추적(Dialogue State Tracking) 연구에 많이 사용됩니다.

2.3.2 DSTC (Dialog System Technology Challenges)

DSTC는 대화 시스템의 성능을 평가하기 위한 챌린지로, 버스 시간표, 레스토랑 정보, 관광 정보 등 다양한 도메인의 대화 데이터를 포함합니다. DSTC1부터 DSTC10까지 다양한 주제로 진행되고 있습니다.

3. 다국어 벤치마크 데이터

다국어 벤치마크 데이터는 Low Resource 언어부터 High Resource 언어까지 다양한 언어를 대상으로 합니다. 이들 데이터셋은 다국어 언어 모델의 성능을 높이는 데 중요한 역할을 하고 있습니다.

3.1 LASER (2019)

LASER는 50개 언어를 대상으로 한 문장 표현(embedding) 생성 프로젝트로, 다국어 연구의 기반이 되는 데이터셋을 제공합니다. 2022년에는 200개의 언어로 확장되었습니다.

3.2 M2M-100 (2020)

M2M-100은 영어에 의존하지 않는 최초의 다국어 기계 번역 모델로, 2200개의 언어 쌍을 지원합니다. 이는 영어 이외의 언어 간 번역 성능을 대폭 개선하였습니다.

3.3 Flores-101 & Flores-200

Flores-101은 Low Resource 언어 간의 기계 번역 성능을 평가하기 위한 데이터셋으로, 101개 언어를 포함하고 있습니다. Flores-200은 이를 200개 언어로 확장하여 더 많은 언어 쌍에 대한 번역 성능을 평가할 수 있도록 했습니다.

3.4 NLLB (No Language Left Behind, 2022)

NLLB 프로젝트는 Low Resource 언어의 번역 성능을 개선하여 정보 접근성을 높이고 디지털 격차를 해소하기 위한 목표로 진행되었습니다. 200개 이상의 언어를 지원하는 모델과 데이터셋이 공개되었으며, 다양한 언어 간의 번역 성능 향상에 기여하고 있습니다.

국부은하군

생각, 기술, 회고 등 다양한 분야를 기록합니다.

이전 포스트

Dataset: 데이터의 집합

다음 포스트