[부스트캠프 AI-Tech] 13주차 Day 1

LKM·2022년 4월 23일
0

✏️학습 정리


1. 데이터 제작의 A to Z

  • 데이터 제작의 중요성
  • 데이터 구축 과정

    • 원시 데이터 선정 및 확보
    • 구축 및 가공 프로세스 확립
    • 구축 및 가공 지침 작성
    • 데이터 구축 및 가공
    • 데이터 검수
  • 데이터 설계

    • 데이터의 유형
    • 데이터의 In / Out 형식
    • 데이터별 규모와 구분(split) 방식
    • 데이터의 주석(annotation) 유형
  • 데이터 수집-가공 설계

    • 원시 데이터 선정
    • 작업자 선정
    • 구축 및 검수 방법 설계
    • 가이드라인 작성
  • 자연어처리 데이터



2. 자연어처리 데이터 기초

  • 인공지능 모델 개발을 위한 데이터

    • 데이터 종류
      • 말뭉치 류
      • 사전, DB 류
    • 인공지능 기술의 발전
      • 규칙 기반 → 통계 기반 → 기계 학습 기반 (Task와 데이터는 그대로!)
    • 종합적 벤치마크 등장
      • GLUE → super GLUE → KILT → GEM
  • 데이터 관련 용어

    • 텍스트 (text)
    • 말뭉치 (corpus)
    • 데이터 (data)
    • 주석 (tag, label, annotation)
    • 타입 (type), 토큰 (token)
    • N-gram (연속된 N개의 단위)
    • 표상 (representation)
  • 자연어처리 데이터 형식

    • HTML
    • XML
    • JSON, JSONL
    • CSV, TSV
  • 공개 데이터



3. 자연어처리 데이터 소개 1

  • 국내 언어 데이터 구축 프로젝트
    • 국가 주도
      • 세종 계획(국립국어원) → 엑소브레인(ETRI) → 모두의 말뭉치(국립국어원)
    • 민간 주도
      • KorQuAD(LG CNS)
      • KLUE(Upstage)
      • KorNLU(kakaobrain)



🗣️피어세션


  • git KLUE repository README 수정
profile
함께 자라기

0개의 댓글