NER(Named Entity Recognition) on Ontonotes v5

장수림·2022년 2월 21일
0
post-thumbnail

NE

NE(Named Entity)개체명를 의미합니다.
이는 인물, 지명, 기관명과 같은 고유명사뿐 아니라 시간, 화폐 단위와 같은 특정한 이름을 가진 개체를 포함하는 광의적인 개념입니다.

NE의 구분

NE는 크게 두 가지 유형으로 분류되며, 이에 따른 학습 전략이 선택됩니다.

  1. 일반적인 개체명(generic NEs)으로 인물이나 장소 등의 명칭이 이에 해당합니다.
    예시: 장그래 - 인명, 수요일 - 시간
  2. 특정 분야 개체명(domain-specific NEs)으로 전문 분야의 용어가 이에 해당합니다.
    예시: Perl - 언어

NER

NER(Named Entity Recognition)은 NE(개체명)을 Recognition(인식)하는 분류 작업으로, 개체명 인식이라고도 불립니다. 미리 정의된 멀티 클래스 태그를 토큰에 할당하는 작업으로 이해할 수 있습니다.

예시:
오늘 <GPE>서울</GPE>의 날씨는 맑고 따듯합니다. 이상으로 <PERSON>장그래</PERSON> 캐스터였습니다.

NER이 해결하고자 하는 문제는 무엇인가?

NER은 기계 번역뿐 아니라 검색, 요약, 질답 구축 등 자연어 처리의 다양한 주제에 활용됩니다.

음절에 민감한 특성을 지닌 한국어는 모아쓰기 방식을 채택하고 있습니다.
띄어쓰기가 잘 지켜지지 않아도('그런것 같아요'), 또는 거꾸로 적어도('끼토산') 음절을 통하면 언중은 글을 이해하는 데에 큰 어려움을 느끼지 않습니다. 그러나 이러한 언어적 특성이 코퍼스에 반영된다면 어떨까요?
이를 활용해 분석을 시도할 경우 아래와 같은 문제가 발생할 수 있습니다.

만약 번역기가 "피리부는 사나이"를 "Piribuo is a man"으로 해석해버린다면?

사용자가 반드시 철자와 문법을 지켜 "피리 부는 사나이"를 입력할 거란 보장은 없습니다.
이처럼 개체명이 일반적인 명사로 잘못 분류되면 문장의 본의미가 제대로 전달되지 않고, 이를 수정하기 위해 유지보수 비용이 들게 됩니다.
자연어 처리에 NER 과정이 수반된다면 분석 품질을 향상시키고 나아가 사용자에게 매끄러운 서비스를 제공하는 데에 큰 도움을 주게 됩니다.

Ontonotes v5

OntoNotes 5.0(Weischedel etal., 2013)은 3개 언어(영어, 중국어, 아랍어)로 구성된 코퍼스입니다.
다양한 장르의 텍스트(뉴스, 전화 통화, 웹로그, 유즈넷 뉴스그룹, 방송, 토크쇼)와 구조적 정보(구문 및 술어 구조) 및 얕은 의미론(온톨로지 및 상호 참조에 연결된 단어 의미)를 포함합니다.

OntoNotes 5.0 홈페이지 : https://catalog.ldc.upenn.edu/LDC2013T19

Text Genres

Annotated Entities

더 알아보기 : https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf

BERT-MRC+DSC

BERT-MRC+DSC는 데이터 불균형 문제를 개선하기 위하여 제시된 모델입니다.
일반적으로 사용되는 지표인 CE(Cross Entropy Loss, 교차 엔트로피)는 accuracy를 지향하도록 설계되어 훈련-테스트 간 불균형을 가지고 있는 데 반해, Sorensen-Dice 또는 Tversky 지수를 기반으로 하는 DSC(Dice coefficient)는 FP, FN에 유사한 importance를 부여하고 데이터의 불균형에 적은 영향을 받습니다.

BERT-MRC+DSC는 음성 태깅 영역에 특장점을 가지며 CTB5, CTB6 및 UD1.4에서 SOTA 결과를 얻었습니다.

Keywords

MRC - machine reading comprehension
DSC - dice coefficient

더 알아보기 : https://arxiv.org/pdf/1911.02855v3.pdf

2개의 댓글

comment-user-thumbnail
2022년 2월 21일

NER대해서는 듣기만 해봤지 잘 알지 못했었는데 정리를 보고 한번에 이해 할 수 있었습니다. 고생하셨습니다.

답글 달기
comment-user-thumbnail
2022년 2월 21일

개체명 인식이 확실히 어디까지 NER 태그를 분류해낼지 기준을 정하는 것 같이 데이터적인 측면에서의 고민이나, 뽑아낸 결과를 어떻게 활용할지와 같이 확장성 및 응용성이 뛰어난 것 같습니다. 고생하셨습니다.

답글 달기