한국어 언어 모델 학습 및 다중 과제 튜닝 - (7강) BERT 언어모델 기반의 문장 토큰 분류

newbie·2021년 9월 29일
0

강의 소개

이번 강의에서 소개하는 문장 토큰 분류 모델은 전체 문장에 대한 하나의 라벨이 아닌, 각 토큰에 대한 라벨을 예측합니다. 😀

활용 분야로는 POS-tagging, NER 등이 있습니다. 😁


문장 토큰 관계 분류 task

  • 주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task
  • 단일문장/두 문장 분류 task는 cls에 부착된 pooler layer의 ouput을 분류하는 task
  • 반면, 토큰 분류 task는 각 token에 진행되는 차이가 있음!

Named Entity Recognition(NER)

  • 개체명 인식 : 문맥을 파악하여 인명, 기관명, 지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고 있는 단어, 어구(개체) 등을 인식
  • 문맥에 따라동일한 단어라도 다른 의미를 내포하고 있으므로 다양한 개체로 사용됨

Part-of-speech tagging(POS Tagging)

  • 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것
  • 품사 태깅은 주어진 문장의 각 성분에 대해서 가장 알맞는 품사를 태깅하는 것

문장 token 분류를 위한 데이터 - kor_ner

  • 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
  • 일반적으로 NER 데이터셋은 pos tagging도 함께 존재
  • 개체명 종류
    • NOH : 기타 숫자 표현
    • LOC : 장소/위치
    • POH : 기타 고유 명사
    • ORG : 기관/조직
    • PER : 인명
    • DUR : 기간
    • PNT : 비율
    • TIM : 시간
    • MNY : 금액
    • DAT : 날짜

이후 실습은 bert로 진행!!
단, 주의할 점은, 형태소 단위의 토큰을 음절 단위의 토큰으로 분해하고, Entity Tag 역시 음절 단위로 매핑시켜 주어야 한다.

Why? wordpiece 단위로 진행할 경우, "이순신은" 이 있을 때, 잘못 분류하여 "이순", "신은"으로 분류한 경우 개체명을 잘못 붙이게 된다. 따라서 음절 단위로 하여 NER task를 진행하는 것을 권장한다고 한다.

실습은 코드로 진행할 예정이므로 여기선 안다룬다.

profile
DL, NLP Engineer to be....

0개의 댓글