(8강) 관계 추출 과제의 이해

전상민·2021년 11월 9일
0

데이터제작(NLP)

목록 보기
8/9

1. 관계 추출 관련 과제의 개요

실제 태스크는 좀 더 복잡하고 두껍다.

관계 추출 관련 과제의 이해

외국은 PLO의 간단한 타입으로 분류하지만, 우리나라는 좀 더 체계화 된 지식을 모델이 습득하기 위해 여러가지 타입을 정의했다. 대분류는 20가지, 소분류는 100가지 이상이라고 한다.

너무 밀접한 분야라서 RE, NER, EL은 주로 같이 이야기된다.

일반적으로, 각 개별 단어와 태그를 하나씩 보는 것보다 문장으로 보는 것이 가독성이 좋아서 한 문장으로 파악하는 것을 권장한다.

2. 과제별 차이점

모두 개체명을 인식한다는 점을 동일하지만, 개체를 보는 관점이 다르다.
NER : 기본적인 개체명 인식 태스크
RE : 개체명이 어떤 종류, 어떤 범주인지 뿐만 아니라 Subj와 Obj까지 판단
EL : 개체명이 있으면 Knowledge base와 연결해주는 과제

3. 데이터 제작시 문제점

NER 문제점

요즘은, 맥락에 기반해 주석을 하는데 이거에 대한 구체적인 가이드라인이 있어야 한다.

  • 처음부터 완벽한 가이드라인은 존재하지 않고 이러한 어려움이 리포팅되면 이후에 보완한다.

RE 문제점

영어 데이터를 가지고 한국 데이터로 생성할 때는 한국어 특징에 잘 맞게 로컬라이징 하는 과정이 꼭 필요하다.

  • 새로운 태그 생성
  • 기존 태그 중 일부 삭제

EL 문제점

이러한 데이터를 만드는 이유

Knowledge Graph

  • Node : 개체명
  • Edge : 관계
profile
깊게 배우고 신박하게 개발할래

0개의 댓글