강의 소개
이번 강의에서 소개하는 문장 토큰 분류 모델은 전체 문장에 대한 하나의 라벨이 아닌, 각 토큰에 대한 라벨을 예측합니다. 😀
활용 분야로는 POS-tagging, NER 등이 있습니다. 😁
문장 토큰 관계 분류 task
- 주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task
- 단일문장/두 문장 분류 task는 cls에 부착된 pooler layer의 ouput을 분류하는 task
- 반면, 토큰 분류 task는 각 token에 진행되는 차이가 있음!
Named Entity Recognition(NER)
- 개체명 인식 : 문맥을 파악하여 인명, 기관명, 지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고 있는 단어, 어구(개체) 등을 인식
- 문맥에 따라동일한 단어라도 다른 의미를 내포하고 있으므로 다양한 개체로 사용됨
Part-of-speech tagging(POS Tagging)
- 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것
- 품사 태깅은 주어진 문장의 각 성분에 대해서 가장 알맞는 품사를 태깅하는 것
문장 token 분류를 위한 데이터 - kor_ner
- 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
- 일반적으로 NER 데이터셋은 pos tagging도 함께 존재
- 개체명 종류
- NOH : 기타 숫자 표현
- LOC : 장소/위치
- POH : 기타 고유 명사
- ORG : 기관/조직
- PER : 인명
- DUR : 기간
- PNT : 비율
- TIM : 시간
- MNY : 금액
- DAT : 날짜
이후 실습은 bert로 진행!!
단, 주의할 점은, 형태소 단위의 토큰을 음절 단위의 토큰으로 분해하고, Entity Tag 역시 음절 단위로 매핑시켜 주어야 한다.
Why? wordpiece 단위로 진행할 경우, "이순신은" 이 있을 때, 잘못 분류하여 "이순", "신은"으로 분류한 경우 개체명을 잘못 붙이게 된다. 따라서 음절 단위로 하여 NER task를 진행하는 것을 권장한다고 한다.
실습은 코드로 진행할 예정이므로 여기선 안다룬다.