NLP 데이터

DONGJIN IM·2022년 7월 6일

데이터 제작 이론

목록 보기
3/6
post-thumbnail

국가 주도 NLP 데이터

21세기 세종 계획

  • 한국어 국어 정보화 중장기 발전 계획으로 국가에서 주도한 프로젝트

  • XML 형식 데이터로 만들어 배포하다 현재는 중단됨

    • DVD 형식으로만 배포
  • 세종 형태 분석 태그표

    • Mecab, Khaii, 꼬마, 한나눔, 코모란 등에서 채택한 태그표
    • Penn Treebank 구구조(Pharse Structure) 분석 방식을 따라 만들어짐
      • 모두의 말뭉치에서는 의존 구문 분석 방식으로 변경됨

모두의 말뭉치

  • 21세기 세종 계획에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료 비중을 높인 데이터

  • JSON 형식, 모두의 말뭉치 누리집에서 배포

  • 21세기 세종 계획 및 모두의 말뭉치는 Train, Validation, Test 데이터로 나누어져 있지 않으므로 사용자가 직접 나누어야 함

  • 원시 말뭉치 + 주석 말뭉치로 구성되어 있음

    • 원시 말뭉치 : Meta Data만 포함되어 있는 Corpus
    • 주석 말뭉치 : Corpus에 Task에 맞는 주석이 달려 있는 데이터

ExoBrain

  • 내 몸 바깥에 있는 인공 두뇌

  • 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술 개발을 위한 프로젝트

    • 전문직 종사자의 조사, 분석 등 지식 노동을 보조 가능한 데이터를 만드려는 국가적인 프로젝트
  • ERTI의 오픈 AI API, DATA 서비스 누리집에서 서비스를 제공

AI Hub

  • AI 인프라를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼

  • JSON, Excel 등 다양한 형식의 데이터를 제공


민간 주도 데이터셋

KLUE

  • 한국어 이해 능력 평가(NLU)를 위한 벤치마크

  • 한국어로 된 원시 말뭉치에서 가공해서 데이터를 만들었다는 특징을 가짐

KorQuAD 1.0 & 2.0

  • SQuAD를 벤치마킹한 한국어 기계 독해 데이터셋

  • 민간 주도로 나온 첫번째 데이터셋

KorNLU

  • 자연어 추론 및 문장 의미 유사도 데이터셋을 기계 번역하여 공개

  • 기계 번역이라 순수 한국어가 아니라는 단점이 존재


Task별 유명한 데이터셋

질의 응답 : SQuAD

  • 위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응다 ㅂ데이터

  • SQuAD 1.0

    1. 구축 대상 기사 추출
    2. 크라우드 소싱을 통한 질의 응답 수집 : 문단마다 5개의 질문과 답변 수집
    3. 추가 응답 수집 : 각 질문당 최소 2개의 추가적인 답변을 수집하여 가장 짧은 대답을 선택함
  • SQuAD 2.0

    1. 크라우드 소싱 플랫폼에서 대답하기 어려운 질문(Unanswerable Questions) 수집
      • 각 문단마다 문단만으로는 대답할 수 없는 5개 질문 생성
      • 적합한 질문을 25개 이하로 남김
    2. 적합한 질문이 수집되지 않은 기사 삭제
    3. Train / Validation / Test Dataset으로 분할

기계 번역 : WMT

  • 두 언어간 병렬 말뭉치로 구성되어 있음

    • 똑같은 데이터, 다른 언어쌍으로 구성되어 있음
  • 평가

    • 영어 -> 다른 언어로 번역하는 데이터셋 1500개
    • 다른 언어 -> 영어로 번역하는 데이터셋 1500개
  • 훈련 : 병렬 말뭉치 및 단일 언어 말뭉치 제공

요약 Task : CNN/Daily Mail

  • 요약 Task 구분 : 추출 요약 / 추상 요약

    • 추출 요약 : Corpus에 존재하는 단어로 요약
    • 추상 요약 : Corpus를 읽고 문장을 "생성"하여 요약
  • CNN/Daily Mail

    • 추상 요약 말뭉치
    • "기사 - 사람이 직접 작성한 요약문" 쌍으로 데이터가 구성되어 있음
    • 저작권 문제로 인해 URL List를 제공

대화 Task : DSTC, WoZ, UDC

DSTC

  • Dialogue System Technology Challenges
    • DSTC1 : Bus timetable에 대한 인간 대화 활용
    • DSTC2 & DSTC3 : Restaurant 정보에 대한 인간 대화 활용
    • DSTC4 & DSTC5 : 여행 정보에 대한 인간 대화 활용
    • DSTC6 이후 : End-to-End Gola Oriented Dialogue Learning, End-to-End Conversation Modeling, Dialogue Breakdown Detection으로 확장됨
      • DSTC10 같은 경우 5개의 Track으로 확장됨

WoZ(Wizard-of-Oz)

  • 대화 상태 추적 데이터와 유사한 형태로 이루어짐

  • 참여자가 대화 시스템을 통해 대화를 하고 있다고 생각하게 한 뒤 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어나가며 대화를 수집하는 방식

UDC

  • 우분투 플랫폼 포럼의 대화를 수집한 데이터

  • 대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있는 데이터

  • Labeling이 되어 있지 않은 데이터

profile
개념부터 확실히!

0개의 댓글