- 주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task
- 개체명 인식은 문맥을 파악해서 인명,기관명,지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고
있는 단어 또.는 어구(개체)등을 인식하는 과정을 의미한다.
- 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.
- 품사 태깅은 주어진 문장의 각 성분에 대하여 가장 알맞는 품사를 태깅하는 것을 의미한다.
- 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER데이터셋
- 일반적으로,NER데이터셋은 POS 태크 정보도 함께 존재
- Entity tag에서 B의 의미는 개체명의 시작(Begin)을 의미하고, I의 의미는 내부(Inside)를 의미하며, O는
다루지 않는 개체명(Outside)를 의미한다.- 즉, B-PER은 인물명 개체명의 시작을 의미하며, I-PER는 인물명 개체명의 내부 부분을 뜻한다.
kor_ner 데이터셋에서 다루는 개체명은 다음과 같다.