A Survey on Deep Learning for Named Entity Recognition1

김민식·2022년 2월 13일
0

NER이란?

Named Entity(개체명) Recognition(인식) - NER

NER 이란 Text, Corpus 에서 비정형 데이터의 Named Entity를 찾는 것을 의미한다.

  • Named Entity(개체명) 이란, 장소, 기관, 사람과 같이 속성을 나타내주는 것들을 의미한다.
  • 또한 generic NE(사람, 지명 ..) 과 domain-specific NE 으로 나뉜다.
# NE예시
김민식 < Person >
애플 < Organization > 

NLP 분야에서 NER 이 중요한 이유는, 단어의 뜻을 더욱 잘 이해할 수 있게 해줌으로써 모델의 성능을 올릴 수 있게 해주는 것이다.

  • ex "김민식"이라는 회사와 사람 이름이 있다고 생각해보자. "김민식(회사)", "김민식(사람이름)"에 따라서 다르게 사용될 수 있는데 NER 을 통해서 이를 구분할 수 있다. 그렇기 때문에 자연어 처리의 많은 분야에서 사용이 된다.

NLTK와 같은 라이브러리를 그대로 사용하는 방법도 있고, 자신의 목적에 맞는 데이터를 구축하고 모델을 학습시키는 방법도 존재한다.

개체명 인식을 위한 방법으로는 크게 BIO(Begin, Inside, Outside), BIESO(Begin, Inside, End, Singleton, Outside) 가 있다. 일반적으로 BIO가 많이 사용이 된다.

B : begin (개체명의 시작)
I : inside (개체명의 내부)
O : outside (개체명이 아닌 것)
E : end (개체명의 끝)
S : singleton (한 개로 이루어진 경우)

# BIO 예시
김 B (begin)
민 I (inside)
식 I (inside)
이 O (outside)
다 O (outside)

Evaluation metric 으로는 F1-score 가 사용이 된다. 대부분의 개체가 O(outside) 로 이루어지게 되는 경우가 많다. 이럴 경우에 모델이 O라고만 예측을 하더라도 일정 성능을 보장받게 되기 때문이다.

그리고 p5 ~ 는 잘 와닿지가 않는다.
기본 reference 들을 더 공부하고 다시 와서 읽어보자.

Refernce

A Survey on Deep Learning for Named Entity Recognition
https://arxiv.org/abs/1812.09449
https://wikidocs.net/30682
https://www.letr.ai/explore/tech-20210723

  • 너무 좋은 글이었다. 많은 정보를 얻을 수 있었으며, 글 작성 방법을 많이 참고하게 된다. (뛰어난 설명과 많은 reference)
profile
Welcome

0개의 댓글