NLP P stage Day 5, 10/1 Fri

이호영·2021년 10월 3일

AI Tech boostcamp klue

Boostcamp AI Tech 2기

목록 보기

32/32

5강 BERT 기반 단일 문장 분류 학습 모델

1.1 KLUE 데이터셋

문장 분류
관계 추출
문장 유사도
자연어 추론
개체명 인식
품사 태깅
질의 응답
목적형 대화 (김성동 님, DST 강의)
의존 구문 분석

1.2 의존 구문 분석

특징

단어들 사이의 관계를 분석하는 task
지배소: 의미의 중심이 되는 요소
의존소: 지배소가 갖는 의미를 보완 ex) 충무공 이순신은 조선 중기의 무신이다.

분류 규칙

교차 의존 구조는 없다.

분류 방법

Sequence labeling 방식으로 처리 단계를 나눈다.

복잡한 자연어를 그래프로 구조화해서 표현 가능

단일 문장 분류 Task

2.1 문장 분류 task

감정 분석(Sentiment Analysis)

활용 방안
- 혐오 발언 분류
- 기업 모니터링: 소셜, 리뷰 등에서 기업 이미지, 브랜드 선호도 분석

주제 라벨링(Topic Labeling)

문장의 내용을 이해

언어감지 (Language Detection)
의도 분류 (Intent Classification)

2.2 문장 분류를 위한 데이터

Kor_hate

혐오 표현에 대한 데이터

Kor_sarcasm

비꼬지 않은 표현의 문장
비꼬는 표현의 문장

Kor_sae

예/아니오로 답변 가능한 질문
대안 선택을 묻는 질문

Kor_3i4k

평서문
질문
명령문

3. 단일 문장 분류 모델 학습

3.1 모델 구조도

BERT의 [CLS] token의 vector를 classification하는 Dense layer 사용

3.2 학습 과정

주요 매개변수
- input_ids

Dataset 다운로드 → Dataset 전처리 및 토큰화 →DataLoader 설계 → Train, dev set

실습

BERT를 활용한 단일 문장 분류

huggingface의 datasets 라이브러리

datasets에 이름만 넣으면 데이터셋을 불러들일 수 있다.

NSMC 데이터 사용

영화 리뷰 데이터

datasets로 불어들인다.

document : sentence

label: 긍정, 부정 분류

데이터 중복, outlier 삭제 →데이터 전처리

이호영

Speech Synthesis & Voice Cloning

이전 포스트