해당 글은 자연어 처리 바이블 (임희석 저) 에서 참고하여 작성되었음을 알려 드립니다.
목차
1. 개체명 인식의 정의와 목적
2. NER 시스템과 그 종류
3. NER 평가 척도
4. BIO Tagging Scheme
5. 한국어 NER 코퍼스
1. 개체명 인식의 정의와 목적
1) 개체명 인식이란?
정의: 사람(Person,PS), 장소(Location, LC), rlrhks(Organization, OG), 날짜 (Date, DT), 이외에도 기타 명명된(named) 개체를 텍스트로 식별하는 작업이다.
2) 개체명 인식의 목적
개체명 인식은 질의 답변(Question Answering), 정보 검색(Information Retrieval), 관계 추출(Relation Extraction) 등을 위한 NLP 시스템의 핵심 구성 요소
- NER 시스템은 질의응답, 정보검색, 공동 참조 해결, 토픽 모델링등의 첫번째 단계로 활용
3) 개체명 인식의 사례
명량 대첩은 1597년[DT] 음력 9월 16일[DT] 정유재란[DT] 때 이순신[PS]이 지휘하는 조선 수군 13척이 명량[LC]에서 일본 수군 130척 이상을 격퇴한 해전이었다.
- 이와 같이 사람과 날짜 시간 등 개체를 텍스트로 인식하는 것이 가능하다!
2. NER 시스템과 그 종류
1) 지도학습기반 시스템
지도 방식의 머신러닝 모델은 데이터의 학습을 통해 예측값을 학습할 수 있고, 그것을 기반으로 사람이 만든 규칙을 대체할 수 있다.
- 종류 : 은닉 마르코프 모델(Hidden Markov Models, HMM), 조건부 무작위장(Conditional Random Fields, CRF) 및 의사 결정트리(Decision Tree, DT) => 일반적인 방법
2) 지식 기반 시스템
- 어휘 자원 및 도메인 별 지식에 의존 => 주석이 달린 학습 데이터를 필요로 하지 않는다.
- 어휘로 인해 일반적으로 정확도가 높을 수 있지만, 도메인 및 언어 별 규칙과 사전의 불완전성으로 인해 recall 값이 낮다.
- 지식 자원을 구성하고 유지하기 위한 도메인 전문가의 필요성 => 단점으로 작용할 수 있다.
3) 비지도 및 부트스트랩 시스템
이전 부터 레이블 데이터 없이도 분류할 수 있는 다양한 연구들이 진행되어 왔고, 해당 게시물에서는 가장 대표적인 방식인 SVM의 존재만 설명하도록 할 것.
SVM
- 서로 다른 두 그룹을 분류하기 위한 방법
- 두 그룹 사이의 거리를 최대로 쓰는 중앙선(결정 경계 ,
Decision boundary을 찾는 방법
- 결정 경계를 정하기 위한 다양한 규칙이 있으니 이건 알아서 찾아보세요.
3. NER 평가 척도
해당 교재에서는 f1 score를 대표적인 평가지표로 설명함
- 예측된 레이블이 올바른지, 그리고 레이블과 상관없이 예측된 엔티티가 올바른지, 타당성 여부를 평가하기 위함이라고 설명
- 이는
정밀도와 재현율에 대한 언급을 하고 있는 것으로 보임
정밀도(precision): 시스템이 올바르게 예측한 엔티티 수/ 시스템이 예측한 수
재현율(recall): 시스템이 올바르게 예측한 개체 수/ 주석을 단 사람이 직접 식별 한 수
F-score: 정밀도와 재현율의 조화평균
4. BIO Tagging Scheme
BIO 태깅 기법이란?
- 개체명을 텍스트로부터 인식시키기 위한 기법중 하나
- 정보 추출(information extraction) 작업에서 자주 이용되는 태깅 기법
- 기본적인 태깅 방식
- B는 Begin의 약자로 개체명 중 시작을 나타내는 단어에 태그
- I는 Inside의 약자로 B혹은 I 개체명 뒤에 오는 단어를 태그
- O는 Outside의 약자로 개체명이 아닌 나머지 단어에 대해 태그
- ex) New York => (New, B-LOC), (York, I-LOC)
5. 한국어 NER 코퍼스
정리는 다음 링크에서 확인하셔요.
https://www.letr.ai/blog/tech-230224