NLP P stage Day 5, 10/1 Fri

이호영·2021년 10월 3일
0

Boostcamp AI Tech 2기

목록 보기
32/32

5강 BERT 기반 단일 문장 분류 학습 모델

1.1 KLUE 데이터셋

  • 문장 분류
  • 관계 추출
  • 문장 유사도
  • 자연어 추론
  • 개체명 인식
  • 품사 태깅
  • 질의 응답
  • 목적형 대화 (김성동 님, DST 강의)
  • 의존 구문 분석

1.2 의존 구문 분석

  1. 특징
  • 단어들 사이의 관계를 분석하는 task
  • 지배소: 의미의 중심이 되는 요소
  • 의존소: 지배소가 갖는 의미를 보완 ex) 충무공 이순신은 조선 중기의 무신이다.
  1. 분류 규칙
  • 교차 의존 구조는 없다.
  1. 분류 방법
  • Sequence labeling 방식으로 처리 단계를 나눈다.

복잡한 자연어를 그래프로 구조화해서 표현 가능

단일 문장 분류 Task

2.1 문장 분류 task

  1. 감정 분석(Sentiment Analysis)
  • 활용 방안
    • 혐오 발언 분류
    • 기업 모니터링: 소셜, 리뷰 등에서 기업 이미지, 브랜드 선호도 분석
  1. 주제 라벨링(Topic Labeling)
  • 문장의 내용을 이해
  1. 언어감지 (Language Detection)
  2. 의도 분류 (Intent Classification)

2.2 문장 분류를 위한 데이터

Kor_hate

  • 혐오 표현에 대한 데이터

Kor_sarcasm

  • 비꼬지 않은 표현의 문장
  • 비꼬는 표현의 문장

Kor_sae

  • 예/아니오로 답변 가능한 질문
  • 대안 선택을 묻는 질문

Kor_3i4k

  • 평서문
  • 질문
  • 명령문

3. 단일 문장 분류 모델 학습

3.1 모델 구조도

BERT의 [CLS] token의 vector를 classification하는 Dense layer 사용

3.2 학습 과정

  • 주요 매개변수
    • input_ids

Dataset 다운로드 → Dataset 전처리 및 토큰화 →DataLoader 설계 → Train, dev set

실습

BERT를 활용한 단일 문장 분류

huggingface의 datasets 라이브러리

datasets에 이름만 넣으면 데이터셋을 불러들일 수 있다.

  • NSMC 데이터 사용

영화 리뷰 데이터

datasets로 불어들인다.

document : sentence

label: 긍정, 부정 분류

데이터 중복, outlier 삭제 →데이터 전처리

profile
Speech Synthesis & Voice Cloning

0개의 댓글