[부스트캠프 AI-Tech] 13주차 Day 3

LKM·2022년 4월 23일
0

✏️학습 정리


7. 데이터 구축 가이드라인 작성 기초

  • 가이드라인 유형

    • 목적
      • 수집, 주석, 검수
    • 제시
      • 문서형, 화면 노출형, 튜토리얼형
  • 가이드라인 구성 요소

    • 데이터 구축 목적 정의
    • 데이터 구축시 고려 사항
    • 사용 용어 정리
  • 가이드라인 버전 관리

    • 구축과 검수 과정을 통해 지속적으로 개정되어야 함
    • 버전마다 어떻게 변화했는지 비교하여 볼 수 있도록 관리
  • 가이드라인 작성 도구

    • Google Docs
    • Notion
    • 워드 및 한글 등...
  • 가이드라인 작성 시 유의 사항

    • 작업자의 작업 이해도 고려
    • 작업자에게 공개해야 할 필수 정보, 부가적 정보 고려
    • 작업자의 가독성 고려



8. 관계 추출 과제의 이해

  • 관계 추출 관련 과제의 개요

    • 개채명 인식 (NER)
      • 문장에 개체명 인식, 각 개체명에 해당하는 태그 주석
      • MUC-7, CoNLL 2003...
    • 관계 추출 (RE)
      • 문장에 나타난 개체명 쌍의 관계를 판별하는 task
      • TAC KBP 2016, TAC RED
    • 개체명 연결 (EL)
      • 개체명 인식 + 모호성 해소

      • AIDA CoNLL-YAGO Dataset, TAC KBP English Entity Linking Comprehensive and Evaluation Data 2010

  • 데이터 구축시 문제점

    • 개체명 인식 (NER)
      • 2개 이상의 태그로 주석될 수 있는 개체명
      • 주석 대상의 범주
    • 관계 추출 (RE)
      • 한국어 데이터 현실에 맞지 않는 주석 (태그 통폐합 및 추가)
      • KB(Knowledge base)의 활용
    • 개체명 연결 (EL)
      • 적합한 KB(Knowledge base) 선정의 문제



9. 관계 추출 관련 논문 읽기

  • 관계 추출 논문
    • Position-aware Attention and Supervised Data Improve Slot Filling
    • KLUE: Korean Language Understanding Evaluation



10. 관계 추출 데이터 구축 실습

  • 과제 정의

    • 과제 목적
    • 데이터 구축 규모
    • 원시 데이터
    • 데이터의 주석 체계
    • 데이터 주석 도구
    • 데이터의 형식
    • 데이터 검수
    • 데이터 평가
  • 데이터 구축 프로세스

  • 가이드라인 작성
    • 작업 목적
    • 작업 도구 사용법
    • 작업 대상 문장과 아닌 문장 구분 기준
    • 레이블별 주석 기준



🗣️피어세션


  • BERT: Pre-training of Deep Bidirectional Transformers for
    Language Understanding 논문 리뷰
  • 카카오 Pororo 사용하여 NER 작업
profile
함께 자라기

0개의 댓글