[부스트캠프 AI-Tech] 10주차 Day 3

LKM·2022년 4월 23일

부스트캠프 AI-Tech P stage

목록 보기

8/45

✏️학습 정리

5. BERT 언어모델 기반의 단일 문장 분류

KLUE 데이터셋
- 한국어 자연어 이해 벤치마크
- 자연어 task 유형
  - 문장 분류
  - 관계 추출
  - 문장 유사도
  - 자연어 추론
  - 개체명 인식
  - 품사 태깅
  - 질의 응답
  - 목적형 대화
  - 의존 구문 분석 (단어들 사이의 관계를 분석하는 task)
단일 문장 분류 task
- 감정 분석
- 주제 라벨링
- 언어감지
- 의도 분류
문장 분류를 위한 데이터
- Kor_hate (혐오 표현에 대한 데이터)
- Kor_sarcasm (비꼬는 표현의 문장)
- Kor_sae
- Kor_3i4k

6. BERT 언어모델 기반의 두 문장 관계 분류

두 문장 관계 분류 task
- 자연어 추론 (NLI)
- 의미론적인 유사성을 측정하는 task (Semantic text pair)

7. BERT 언어모델 기반의 문장 토큰 분류

문장 토큰 관계 분류 task
- 개체명 인식 (NER)
- Pos Tagging
문장 token 분류를 위한 데이터
- Kor_ner

실습

BERT 단일 문장 분류 학습
BERT 두 문장 관계 분류
- 학습 데이터 구축
- 두 문장 관계 분류 학습
- IRQA 기반의 챗봇 실습
BERT 문장 토큰 분류
- 문장 토큰 단위 분류 모델 학습
- 기계독해 모델 학습

🗣️피어세션

baseline
- split(’,’)를 할 경우, subject나 object에 ‘,’가 포함되어 있으면 짤려서 들어감 (전처리 필요)
- 데이터 전처리 (영어, 한국어, 숫자 제외)하고 실험해보기
- special token @, #도 전처리

함께 자라기

이전 포스트

[부스트캠프 AI-Tech] 10주차 Day 2

다음 포스트

[부스트캠프 AI-Tech] 10주차 Day 4~5

0개의 댓글