[부스트캠프 AI-Tech] 10주차 Day 3
✏️학습 정리
5. BERT 언어모델 기반의 단일 문장 분류
-
KLUE 데이터셋
- 한국어 자연어 이해 벤치마크
- 자연어 task 유형
- 문장 분류
- 관계 추출
- 문장 유사도
- 자연어 추론
- 개체명 인식
- 품사 태깅
- 질의 응답
- 목적형 대화
- 의존 구문 분석 (단어들 사이의 관계를 분석하는 task)
-
단일 문장 분류 task
-
문장 분류를 위한 데이터
- Kor_hate (혐오 표현에 대한 데이터)
- Kor_sarcasm (비꼬는 표현의 문장)
- Kor_sae
- Kor_3i4k
6. BERT 언어모델 기반의 두 문장 관계 분류
- 두 문장 관계 분류 task
- 자연어 추론 (NLI)
- 의미론적인 유사성을 측정하는 task (Semantic text pair)
7. BERT 언어모델 기반의 문장 토큰 분류
-
문장 토큰 관계 분류 task
-
문장 token 분류를 위한 데이터
실습
-
BERT 단일 문장 분류 학습
-
BERT 두 문장 관계 분류
- 학습 데이터 구축
- 두 문장 관계 분류 학습
- IRQA 기반의 챗봇 실습
-
BERT 문장 토큰 분류
- 문장 토큰 단위 분류 모델 학습
- 기계독해 모델 학습
🗣️피어세션
- baseline
- split(’,’)를 할 경우, subject나 object에 ‘,’가 포함되어 있으면 짤려서 들어감 (전처리 필요)
- 데이터 전처리 (영어, 한국어, 숫자 제외)하고 실험해보기
- special token @, #도 전처리