NLP 데이터

DONGJIN IM·2022년 7월 6일

데이터 이론

데이터 제작 이론

목록 보기

3/6

국가 주도 NLP 데이터

21세기 세종 계획

한국어 국어 정보화 중장기 발전 계획으로 국가에서 주도한 프로젝트
XML 형식 데이터로 만들어 배포하다 현재는 중단됨
- DVD 형식으로만 배포
세종 형태 분석 태그표
- Mecab, Khaii, 꼬마, 한나눔, 코모란 등에서 채택한 태그표
- Penn Treebank 구구조(Pharse Structure) 분석 방식을 따라 만들어짐
  - 모두의 말뭉치에서는 의존 구문 분석 방식으로 변경됨

모두의 말뭉치

21세기 세종 계획에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료 비중을 높인 데이터
JSON 형식, 모두의 말뭉치 누리집에서 배포
- 말뭉치 누리집 : https://corpus.korean.go.kr/
21세기 세종 계획 및 모두의 말뭉치는 Train, Validation, Test 데이터로 나누어져 있지 않으므로 사용자가 직접 나누어야 함
원시 말뭉치 + 주석 말뭉치로 구성되어 있음
- 원시 말뭉치 : Meta Data만 포함되어 있는 Corpus
- 주석 말뭉치 : Corpus에 Task에 맞는 주석이 달려 있는 데이터

ExoBrain

내 몸 바깥에 있는 인공 두뇌
인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술 개발을 위한 프로젝트
- 전문직 종사자의 조사, 분석 등 지식 노동을 보조 가능한 데이터를 만드려는 국가적인 프로젝트
ERTI의 오픈 AI API, DATA 서비스 누리집에서 서비스를 제공

AI Hub

AI 인프라를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼
JSON, Excel 등 다양한 형식의 데이터를 제공

민간 주도 데이터셋

KLUE

한국어 이해 능력 평가(NLU)를 위한 벤치마크
한국어로 된 원시 말뭉치에서 가공해서 데이터를 만들었다는 특징을 가짐

KorQuAD 1.0 & 2.0

SQuAD를 벤치마킹한 한국어 기계 독해 데이터셋
민간 주도로 나온 첫번째 데이터셋

KorNLU

자연어 추론 및 문장 의미 유사도 데이터셋을 기계 번역하여 공개
기계 번역이라 순수 한국어가 아니라는 단점이 존재

Task별 유명한 데이터셋

질의 응답 : SQuAD

위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응다 ㅂ데이터
SQuAD 1.0
1. 구축 대상 기사 추출
2. 크라우드 소싱을 통한 질의 응답 수집 : 문단마다 5개의 질문과 답변 수집
3. 추가 응답 수집 : 각 질문당 최소 2개의 추가적인 답변을 수집하여 가장 짧은 대답을 선택함
SQuAD 2.0
1. 크라우드 소싱 플랫폼에서 대답하기 어려운 질문(Unanswerable Questions) 수집
  - 각 문단마다 문단만으로는 대답할 수 없는 5개 질문 생성
  - 적합한 질문을 25개 이하로 남김
2. 적합한 질문이 수집되지 않은 기사 삭제
3. Train / Validation / Test Dataset으로 분할

기계 번역 : WMT

두 언어간 병렬 말뭉치로 구성되어 있음
- 똑같은 데이터, 다른 언어쌍으로 구성되어 있음
평가
- 영어 -> 다른 언어로 번역하는 데이터셋 1500개
- 다른 언어 -> 영어로 번역하는 데이터셋 1500개
훈련 : 병렬 말뭉치 및 단일 언어 말뭉치 제공

요약 Task : CNN/Daily Mail

요약 Task 구분 : 추출 요약 / 추상 요약
- 추출 요약 : Corpus에 존재하는 단어로 요약
- 추상 요약 : Corpus를 읽고 문장을 "생성"하여 요약
CNN/Daily Mail
- 추상 요약 말뭉치
- "기사 - 사람이 직접 작성한 요약문" 쌍으로 데이터가 구성되어 있음
- 저작권 문제로 인해 URL List를 제공

대화 Task : DSTC, WoZ, UDC

DSTC

Dialogue System Technology Challenges
- DSTC1 : Bus timetable에 대한 인간 대화 활용
- DSTC2 & DSTC3 : Restaurant 정보에 대한 인간 대화 활용
- DSTC4 & DSTC5 : 여행 정보에 대한 인간 대화 활용
- DSTC6 이후 : End-to-End Gola Oriented Dialogue Learning, End-to-End Conversation Modeling, Dialogue Breakdown Detection으로 확장됨
  - DSTC10 같은 경우 5개의 Track으로 확장됨

WoZ(Wizard-of-Oz)

대화 상태 추적 데이터와 유사한 형태로 이루어짐
참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한 뒤 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어나가며 대화를 수집하는 방식

UDC

우분투 플랫폼 포럼의 대화를 수집한 데이터
대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있는 데이터
Labeling이 되어 있지 않은 데이터

개념부터 확실히!

이전 포스트

데이터

다음 포스트

원시 데이터

0개의 댓글