국내 NLP 데이터 구축 프로젝트는 크게 국가 기관 주도, 기업 주도, 개인 및 학계 주도로 나뉩니다. 각 주체가 기여한 주요 프로젝트들을 상세히 살펴보겠습니다.
21세기 세종 계획은 현대 국어, 역사 자료, 북한어 등 다양한 분야의 말뭉치 2억 어절을 구축한 대규모 국어 정보화 프로젝트입니다. 이 계획은 한국어의 디지털화와 NLP 연구를 위한 기초 데이터를 제공하기 위해 1997년부터 2007년까지 진행되었습니다. 주요 성과로는 다음과 같은 내용이 포함됩니다:
KAIST는 1997년부터 2005년까지 순차적으로 한국어와 다국어 코퍼스를 공개하였습니다. 이 데이터셋은 Semantic Web Research Center를 통해 제공되었으며, 한국어와 다양한 언어 간의 비교 연구 및 멀티모달 언어 데이터 연구를 위해 활용되었습니다.
엑소브레인 프로젝트는 한국전자통신연구원(ETRI)에서 진행한 프로젝트로, 언어를 이해하고 지식을 학습하여 전문가 수준의 지식을 서비스하는 언어 지능 소프트웨어(SW)를 개발하기 위한 목표를 가지고 있습니다. 프로젝트는 3단계로 나누어 진행되었습니다:
엑소브레인은 AI API 형태로 공개되어 NLP 연구자들에게 큰 도움이 되고 있습니다.
모두의 말뭉치는 인공지능의 한국어 처리 능력 향상을 위한 한국어 학습 자료 공개 플랫폼입니다. 기존 21세기 세종 계획에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였습니다. 다층위 주석이 포함된 말뭉치를 제공하며, 형태, 구문, 어휘 의미, 의미역, 개체명, 상호 참조 등의 다양한 주석을 JSON 형식으로 포함하고 있습니다.
우리말샘은 누구나 자유롭게 제작하고 이용할 수 있는 국어사전 프로젝트입니다. 오픈 API를 제공하며, GitHub에서 관련 코드를 활용하여 다양한 응용 프로그램에서 국어 데이터를 사용할 수 있습니다.
AI 허브는 한국정보화진흥원(NIA)에서 운영하는 플랫폼으로, AI 기술 및 제품 개발에 필요한 다양한 데이터를 제공하는 역할을 합니다. AI 허브는 이미지, 음성, 언어, 헬스케어 등 여러 분야에 걸쳐 다양한 데이터셋을 제공하며, 특히 한국어 처리 능력을 향상시키기 위한 대규모 언어 데이터도 포함하고 있습니다. JSON, 엑셀 등 다양한 형식으로 데이터를 제공하며, 실제 산업계의 수요를 반영한 자원을 구축하여 AI 연구자와 기업들이 쉽게 접근하고 활용할 수 있도록 하고 있습니다.
KorQuAD는 스탠포드 대학교의 SQuAD를 벤치마킹하여 개발된 한국어 기계 독해(Machine Reading Comprehension) 데이터셋입니다. KorQuAD 1.0은 약 7만 쌍의 질의응답 데이터를 포함하고 있으며, 2.0 버전은 이보다 확장된 10만 쌍 이상의 데이터를 포함합니다. 이는 웹 문서 기반의 질의응답 모델 학습에 필수적인 자원을 제공합니다.
KLUE(Korean Language Understanding Evaluation)는 한국어 이해 능력을 평가하기 위한 벤치마크 데이터셋입니다. 주요 Task는 다음과 같습니다:
KorNLI와 KorSTS는 카카오브레인에서 개발한 한국어 자연어 추론(NLI)과 문장 의미 유사도(STS) 벤치마크 데이터셋입니다.
KOBEST는 한국어 이해 능력 평가를 위한 벤치마크로, 다양한 Task를 포함하고 있습니다.
NSMC(Naver Sentiment Movie Corpus)는 네이버 영화에서 크롤링한 리뷰 데이터를 기반으로 제작된 감정 분석 데이터셋입니다. 데이터는 긍정과 부정을 라벨로 제공하며, 감성 분석 연구에 많이 활용됩니다. 이 데이터셋은 한국어 텍스트 감성 분석 모델의 학습 및 평가에 중요한 역할을 하고 있습니다.
Korean Hate Speech - BEEP 데이터셋은 한국 연예 뉴스 플랫폼의 댓글을 수집하여 구축된 혐오 표현 데이터셋입니다. 라벨이 지정된 버전과 그렇지 않은 버전이 있으며, 혐오 표현, 성별 편향, 공격성 등 다양한 요소를 분석할 수 있도록 데이터가 구성되어 있습니다.
KorLex는 WordNet의 구조를 한국어로 확장한 데이터베이스로, 부산대학교 권혁철 교수와 윤애선 교수가 주도하여 개발했습니다. WordNet과 유사하게 단어를 유의어 집단으로 분류하며, 각 단어들 간의 다양한 의미 관계를 기록하여 NLP 연구에 유용한 자원을 제공합니다.
해외에서도 다양한 NLP 벤치마크 데이터셋이 개발되어 연구에 활용되고 있습니다. 데이터셋은 Natural Language Understanding (NLU), Natural Language Generation (NLG), 그리고 NLU + NLG를 모두 포함하는 데이터셋으로 나뉩니다.
SNLI는 주어진 문장들의 관계를 **모순 (contradiction), 중립 (neutral), 함의 (entailment)**로 구분하는 데이터셋으로, 자연어 추론 모델의 학습 및 평가에 사용됩니다.
CoNLL-2003 NER 데이터셋은 영어와 독일어로 구성된 개체명 인식 데이터셋으로, 사람, 장소, 단체 등의 이름을 추출하는 Task를 수행하기 위해 사용됩니다.
TACRED는 문장의 주어(subject, head entity)와 목적어(object, tail entity) 사이의 관계를 추출하는 Task를 위한 데이터셋으로, 뉴스 및 웹 포럼 문서에서 추출된 문장들을 활용하여 구성되었습니다.
WMT는 2014년부터 매년 개최된 기계 번역 학회에서 공개한 다국어 번역 데이터셋으로, 뉴스, 바이오, 멀티모달 데이터 등 다양한 분야의 병렬 말뭉치로 구성되어 있습니다.
CNN/Daily Mail 데이터셋은 뉴스 기사와 해당 기사의 요약문이 쌍을 이루는 데이터셋으로, 문서 요약 모델 학습에 사용됩니다. 약 28만 건의 학습 데이터와 1만여 건의 검증 및 평가 데이터로 구성되어 있습니다.\
SQuAD는 스탠포드 대학교에서 개발한 기계 독해(Machine Reading Comprehension) 벤치마크 데이터셋입니다. 문서에서 특정 질문에 대한 답을 찾는 Task로 구성되어 있으며, 이는 자연어 이해와 질의응답 시스템의 학습 및 평가에 널리 사용됩니다. SQuAD 1.1은 약 10만 개의 질의응답 쌍으로 구성되어 있으며, SQuAD 2.0은 이를 확장하여 일부 질문에는 답변이 없는 경우도 포함하여 모델이 답이 없는 질문도 구분할 수 있도록 했습니다.
GLUE는 다양한 자연어 이해 Task를 포함하는 벤치마크 데이터셋으로, 자연어 추론, 문장 유사도, 텍스트 분류 등의 과제를 포함하고 있습니다. 이는 자연어 처리 모델의 일반적인 이해 능력을 평가하기 위한 표준 벤치마크로 사용됩니다. GLUE는 이후 SuperGLUE로 확장되어 더 어려운 Task를 포함하게 되었으며, 최신 모델의 성능을 평가하는 데 활용되고 있습니다.
Big Bench는 대규모 언어 모델의 능력을 평가하기 위해 다양한 자연어 처리(NLP) 과제를 포함한 벤치마크입니다. 연구자와 엔지니어들이 협력하여 200개 이상의 Task를 개발하였으며, 일반적인 자연어 이해뿐만 아니라 창의성, 논리적 사고, 수학적 추론 등 다양한 능력을 측정하는 과제를 포함하고 있습니다. 이는 언어 모델이 인간과 유사한 수준의 이해와 문제 해결 능력을 갖추었는지 평가하는 데 사용됩니다.
MMLU는 대규모 멀티태스크 언어 이해 벤치마크로, 다양한 학문 분야와 수준의 57개 과제를 포함하고 있습니다. 이 데이터셋은 역사, 과학, 수학, 경제학, 의학 등 여러 주제에 걸쳐 언어 모델의 능력을 평가합니다. 특히, 인간의 지식 수준에 근접한 성과를 내는지를 평가하는 데 중점을 두고 있어, 모델의 전반적인 이해 능력을 측정하는 데 중요한 역할을 하고 있습니다.
Wizard-of-Oz 데이터셋은 대화 시스템의 데이터를 수집하기 위해 고안된 방식으로, 사용자가 AI 시스템과 대화하는 것처럼 유도하여 데이터를 수집합니다. 이 방식은 대화 상태 추적(Dialogue State Tracking) 연구에 많이 사용됩니다.
DSTC는 대화 시스템의 성능을 평가하기 위한 챌린지로, 버스 시간표, 레스토랑 정보, 관광 정보 등 다양한 도메인의 대화 데이터를 포함합니다. DSTC1부터 DSTC10까지 다양한 주제로 진행되고 있습니다.
다국어 벤치마크 데이터는 Low Resource 언어부터 High Resource 언어까지 다양한 언어를 대상으로 합니다. 이들 데이터셋은 다국어 언어 모델의 성능을 높이는 데 중요한 역할을 하고 있습니다.
LASER는 50개 언어를 대상으로 한 문장 표현(embedding) 생성 프로젝트로, 다국어 연구의 기반이 되는 데이터셋을 제공합니다. 2022년에는 200개의 언어로 확장되었습니다.
M2M-100은 영어에 의존하지 않는 최초의 다국어 기계 번역 모델로, 2200개의 언어 쌍을 지원합니다. 이는 영어 이외의 언어 간 번역 성능을 대폭 개선하였습니다.
Flores-101은 Low Resource 언어 간의 기계 번역 성능을 평가하기 위한 데이터셋으로, 101개 언어를 포함하고 있습니다. Flores-200은 이를 200개 언어로 확장하여 더 많은 언어 쌍에 대한 번역 성능을 평가할 수 있도록 했습니다.
NLLB 프로젝트는 Low Resource 언어의 번역 성능을 개선하여 정보 접근성을 높이고 디지털 격차를 해소하기 위한 목표로 진행되었습니다. 200개 이상의 언어를 지원하는 모델과 데이터셋이 공개되었으며, 다양한 언어 간의 번역 성능 향상에 기여하고 있습니다.