실제 태스크는 좀 더 복잡하고 두껍다.
외국은 PLO의 간단한 타입으로 분류하지만, 우리나라는 좀 더 체계화 된 지식을 모델이 습득하기 위해 여러가지 타입을 정의했다. 대분류는 20가지, 소분류는 100가지 이상이라고 한다.
너무 밀접한 분야라서 RE, NER, EL은 주로 같이 이야기된다.
일반적으로, 각 개별 단어와 태그를 하나씩 보는 것보다 문장으로 보는 것이 가독성이 좋아서 한 문장으로 파악하는 것을 권장한다.
모두 개체명을 인식한다는 점을 동일하지만, 개체를 보는 관점이 다르다.
NER : 기본적인 개체명 인식 태스크
RE : 개체명이 어떤 종류, 어떤 범주인지 뿐만 아니라 Subj와 Obj까지 판단
EL : 개체명이 있으면 Knowledge base와 연결해주는 과제
요즘은, 맥락에 기반해 주석을 하는데 이거에 대한 구체적인 가이드라인이 있어야 한다.
영어 데이터를 가지고 한국 데이터로 생성할 때는 한국어 특징에 잘 맞게 로컬라이징 하는 과정이 꼭 필요하다.