1. 개체명 인식(Named Entity Recognition)

김지우·2023년 7월 13일

NLP_Basic

목록 보기

1/9

해당 글은 자연어 처리 바이블 (임희석 저) 에서 참고하여 작성되었음을 알려 드립니다.

목차
1. 개체명 인식의 정의와 목적
2. NER 시스템과 그 종류
3. NER 평가 척도
4. BIO Tagging Scheme
5. 한국어 NER 코퍼스

1. 개체명 인식의 정의와 목적

1) 개체명 인식이란?

정의: 사람(Person,PS), 장소(Location, LC), rlrhks(Organization, OG), 날짜 (Date, DT), 이외에도 기타 명명된(named) 개체를 텍스트로 식별하는 작업이다.

2) 개체명 인식의 목적

개체명 인식은 질의 답변(Question Answering), 정보 검색(Information Retrieval), 관계 추출(Relation Extraction) 등을 위한 NLP 시스템의 핵심 구성 요소
NER 시스템은 질의응답, 정보검색, 공동 참조 해결, 토픽 모델링등의 첫번째 단계로 활용

3) 개체명 인식의 사례

명량 대첩은 1597년[DT] 음력 9월 16일[DT] 정유재란[DT] 때 이순신[PS]이 지휘하는 조선 수군 13척이 명량[LC]에서 일본 수군 130척 이상을 격퇴한 해전이었다.

이와 같이 사람과 날짜 시간 등 개체를 텍스트로 인식하는 것이 가능하다!

2. NER 시스템과 그 종류

1) 지도학습기반 시스템

지도 방식의 머신러닝 모델은 데이터의 학습을 통해 예측값을 학습할 수 있고, 그것을 기반으로 사람이 만든 규칙을 대체할 수 있다.

종류 : 은닉 마르코프 모델(Hidden Markov Models, HMM), 조건부 무작위장(Conditional Random Fields, CRF) 및 의사 결정트리(Decision Tree, DT) => 일반적인 방법

2) 지식 기반 시스템

어휘 자원 및 도메인 별 지식에 의존 => 주석이 달린 학습 데이터를 필요로 하지 않는다.
어휘로 인해 일반적으로 정확도가 높을 수 있지만, 도메인 및 언어 별 규칙과 사전의 불완전성으로 인해 recall 값이 낮다.
지식 자원을 구성하고 유지하기 위한 도메인 전문가의 필요성 => 단점으로 작용할 수 있다.

3) 비지도 및 부트스트랩 시스템

이전 부터 레이블 데이터 없이도 분류할 수 있는 다양한 연구들이 진행되어 왔고, 해당 게시물에서는 가장 대표적인 방식인 SVM의 존재만 설명하도록 할 것.

SVM
- 서로 다른 두 그룹을 분류하기 위한 방법
- 두 그룹 사이의 거리를 최대로 쓰는 중앙선(결정 경계 ,Decision boundary을 찾는 방법
- 결정 경계를 정하기 위한 다양한 규칙이 있으니 이건 알아서 찾아보세요.

3. NER 평가 척도

해당 교재에서는 f1 score를 대표적인 평가지표로 설명함

예측된 레이블이 올바른지, 그리고 레이블과 상관없이 예측된 엔티티가 올바른지, 타당성 여부를 평가하기 위함이라고 설명
이는 정밀도와 재현율에 대한 언급을 하고 있는 것으로 보임
- 정밀도(precision): 시스템이 올바르게 예측한 엔티티 수/ 시스템이 예측한 수
- 재현율(recall): 시스템이 올바르게 예측한 개체 수/ 주석을 단 사람이 직접 식별 한 수
- F-score: 정밀도와 재현율의 조화평균

4. BIO Tagging Scheme

BIO 태깅 기법이란?

개체명을 텍스트로부터 인식시키기 위한 기법중 하나
정보 추출(information extraction) 작업에서 자주 이용되는 태깅 기법
기본적인 태깅 방식
- B는 Begin의 약자로 개체명 중 시작을 나타내는 단어에 태그
- I는 Inside의 약자로 B혹은 I 개체명 뒤에 오는 단어를 태그
- O는 Outside의 약자로 개체명이 아닌 나머지 단어에 대해 태그
- ex) New York => (New, B-LOC), (York, I-LOC)

5. 한국어 NER 코퍼스

정리는 다음 링크에서 확인하셔요.
https://www.letr.ai/blog/tech-230224

김지우

프로그래밍 기록 + 공부 기록

다음 포스트