5강 BERT 기반 단일 문장 분류 학습 모델
1.1 KLUE 데이터셋
- 문장 분류
- 관계 추출
- 문장 유사도
- 자연어 추론
- 개체명 인식
- 품사 태깅
- 질의 응답
- 목적형 대화 (김성동 님, DST 강의)
- 의존 구문 분석
1.2 의존 구문 분석
- 특징
- 단어들 사이의 관계를 분석하는 task
- 지배소: 의미의 중심이 되는 요소
- 의존소: 지배소가 갖는 의미를 보완 ex) 충무공 이순신은 조선 중기의 무신이다.
- 분류 규칙
- 분류 방법
- Sequence labeling 방식으로 처리 단계를 나눈다.
복잡한 자연어를 그래프로 구조화해서 표현 가능
단일 문장 분류 Task
2.1 문장 분류 task
- 감정 분석(Sentiment Analysis)
- 활용 방안
- 혐오 발언 분류
- 기업 모니터링: 소셜, 리뷰 등에서 기업 이미지, 브랜드 선호도 분석
- 주제 라벨링(Topic Labeling)
- 언어감지 (Language Detection)
- 의도 분류 (Intent Classification)
2.2 문장 분류를 위한 데이터
Kor_hate
Kor_sarcasm
Kor_sae
- 예/아니오로 답변 가능한 질문
- 대안 선택을 묻는 질문
Kor_3i4k
3. 단일 문장 분류 모델 학습
3.1 모델 구조도
BERT의 [CLS] token의 vector를 classification하는 Dense layer 사용
3.2 학습 과정
Dataset 다운로드 → Dataset 전처리 및 토큰화 →DataLoader 설계 → Train, dev set
실습
BERT를 활용한 단일 문장 분류
huggingface의 datasets 라이브러리
datasets에 이름만 넣으면 데이터셋을 불러들일 수 있다.
영화 리뷰 데이터
datasets로 불어들인다.
document : sentence
label: 긍정, 부정 분류
데이터 중복, outlier 삭제 →데이터 전처리