[부스트캠프 AI-Tech] 10주차 Day 3

LKM·2022년 4월 23일
0

✏️학습 정리


5. BERT 언어모델 기반의 단일 문장 분류

  • KLUE 데이터셋

    • 한국어 자연어 이해 벤치마크
    • 자연어 task 유형
      • 문장 분류
      • 관계 추출
      • 문장 유사도
      • 자연어 추론
      • 개체명 인식
      • 품사 태깅
      • 질의 응답
      • 목적형 대화
      • 의존 구문 분석 (단어들 사이의 관계를 분석하는 task)
  • 단일 문장 분류 task

    • 감정 분석
    • 주제 라벨링
    • 언어감지
    • 의도 분류
  • 문장 분류를 위한 데이터

    • Kor_hate (혐오 표현에 대한 데이터)
    • Kor_sarcasm (비꼬는 표현의 문장)
    • Kor_sae
    • Kor_3i4k



6. BERT 언어모델 기반의 두 문장 관계 분류

  • 두 문장 관계 분류 task
    • 자연어 추론 (NLI)
    • 의미론적인 유사성을 측정하는 task (Semantic text pair)



7. BERT 언어모델 기반의 문장 토큰 분류

  • 문장 토큰 관계 분류 task

    • 개체명 인식 (NER)
    • Pos Tagging
  • 문장 token 분류를 위한 데이터

    • Kor_ner



실습

  • BERT 단일 문장 분류 학습

  • BERT 두 문장 관계 분류

    • 학습 데이터 구축
    • 두 문장 관계 분류 학습
    • IRQA 기반의 챗봇 실습
  • BERT 문장 토큰 분류

    • 문장 토큰 단위 분류 모델 학습
    • 기계독해 모델 학습



🗣️피어세션


  • baseline
    • split(’,’)를 할 경우, subject나 object에 ‘,’가 포함되어 있으면 짤려서 들어감 (전처리 필요)
    • 데이터 전처리 (영어, 한국어, 숫자 제외)하고 실험해보기
    • special token @, #도 전처리
profile
함께 자라기

0개의 댓글