한국어 언어 모델 학습 및 다중 과제 튜닝 - (5강) BERT 기반 단일 문장 분류 모델 학습

newbie·2021년 9월 28일
0

강의 소개

3강에서 배운 BERT를 가지고 자연어 처리 Task를 해결해 봅니다. 🧐

단일 문장 분류 모델은 주어진 문장에 대하여 특정 라벨을 예측하는 것입니다.

활용 분야로는 리뷰의 긍정/부정 등의 감성 분석, 뉴스의 카테고리 분류, 비속어 판단 모델 등이 있습니다.

Reference


사용할 데이터셋

  • KLUE(Korean Language Understanding Evaluation) benchmark
  • 그 중 sentence classification & relative extraction(RE)

**참고로, KLUE 중 의존 구문 분석 task란?

  • 단어 사이의 관계를 분석하는 task
  • 의존소와 지배소를 구분하는 task
    • 지배소 : 의미의 중심이 되는 요소
    • 의존소 : 지배소가 갖는 의미를 보완해주는 요소
    • e.g.) 충무공 이순신 => 이순신:지배소, 충무공:의존소
  • 분류 규칙
    • 지배소는 후위언어이다. 즉 지배소는 항상 의존소보다 뒤에 위치한다
    • 각 의존소의 지배소는 하나이다.
    • 교차 의존 구조는 없다.
  • 분류 방법
    • sequence labeling 방식
    • 각각을 토큰으로 바라보고 모델 입장에서 토큰이 의존소인지 지배소인지 분류
  • 의존구문 분석은 자연어 형태의 그래프로 구조화하여 각 대상에 대한 정보를 추출 가능!!

문장 분류 task

  • 주어진 문장이 어떤 종류의 범주에 속하는지 구분하는 task
  • 감정분류(sentiment classification)
    • 문장의 기쁨, 부정, 중립 등의 성향을 분류하는 프로세스
    • 활용 예시 : 혐오 발언 분류, 기업 모니터링 등
  • 주제 라벨링(topic labeling)
    • 문장의 내용을 이해하고 적절한 범주를 분류하는 프로세스
    • 활용 예시 : 대용량 문서 분류, VoC 등
  • 언어 감지(Language Detection)
    • 문장이 어떤 나라 언어인지를 분류하는 프로세스
    • 활용 방안 : 번역기, 데이터 필터링 등
  • 의도 분류(intent classification)
    • 문장이 가진 의도를 분류
    • 활용 방안 : 챗봇

단일문장분류학습

  • BERT를 가지고 할 예정!
  • 이후는 실습코드로 할 예정이므로 따로 작성하지 않을 예정!
profile
DL, NLP Engineer to be....

0개의 댓글