BERT 문장 토큰 관계 분류 task

김태민·2023년 5월 22일
1

boostcamp

목록 보기
17/36
post-thumbnail

문장 토큰 관계 분류 task

  • 주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task

Named Entity Recognition (NER)

  • 개체명 인식은 문맥을 파악해서 인명,기관명,지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고
    있는 단어 또.는 어구(개체)등을 인식하는 과정을 의미한다.

Part-of-Speech tagging (POStagging)


  • 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것이다.
  • 품사 태깅은 주어진 문장의 각 성분에 대하여 가장 알맞는 품사를 태깅하는 것을 의미한다.

kor_ner 데이터셋

  • 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER데이터셋
  • 일반적으로,NER데이터셋은 POS 태크 정보도 함께 존재

  • Entity tag에서 B의 의미는 개체명의 시작(Begin)을 의미하고, I의 의미는 내부(Inside)를 의미하며, O는
    다루지 않는 개체명(Outside)를 의미한다.
  • 즉, B-PER은 인물명 개체명의 시작을 의미하며, I-PER는 인물명 개체명의 내부 부분을 뜻한다.
    kor_ner 데이터셋에서 다루는 개체명은 다음과 같다.
profile
한성대학교 네이버 AI Tech 5기 NLP

0개의 댓글