한국어 국어 정보화 중장기 발전 계획으로 국가에서 주도한 프로젝트
XML 형식 데이터로 만들어 배포하다 현재는 중단됨
세종 형태 분석 태그표
21세기 세종 계획에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료 비중을 높인 데이터
JSON 형식, 모두의 말뭉치 누리집에서 배포
21세기 세종 계획 및 모두의 말뭉치는 Train, Validation, Test 데이터로 나누어져 있지 않으므로 사용자가 직접 나누어야 함
원시 말뭉치 + 주석 말뭉치로 구성되어 있음
내 몸 바깥에 있는 인공 두뇌
인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술 개발을 위한 프로젝트
ERTI의 오픈 AI API, DATA 서비스 누리집에서 서비스를 제공
AI 인프라를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼
JSON, Excel 등 다양한 형식의 데이터를 제공
한국어 이해 능력 평가(NLU)를 위한 벤치마크
한국어로 된 원시 말뭉치에서 가공해서 데이터를 만들었다는 특징을 가짐
SQuAD를 벤치마킹한 한국어 기계 독해 데이터셋
민간 주도로 나온 첫번째 데이터셋
자연어 추론 및 문장 의미 유사도 데이터셋을 기계 번역하여 공개
기계 번역이라 순수 한국어가 아니라는 단점이 존재
위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응다 ㅂ데이터
SQuAD 1.0
SQuAD 2.0
두 언어간 병렬 말뭉치로 구성되어 있음
평가
훈련 : 병렬 말뭉치 및 단일 언어 말뭉치 제공
요약 Task 구분 : 추출 요약 / 추상 요약
CNN/Daily Mail
대화 상태 추적 데이터와 유사한 형태로 이루어짐
참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한 뒤 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어나가며 대화를 수집하는 방식
우분투 플랫폼 포럼의 대화를 수집한 데이터
대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있는 데이터
Labeling이 되어 있지 않은 데이터