(9강) 관계 추출 관련 논문 읽기

전상민·2021년 11월 9일
0

1. Position-aware Attention and Supervised Data Improve Slot Filling

목차

Overview

왜 제목이 RE가 아니라 Slot Filling일까? 단순히 Entity Tag를 채우는 것이 Relation에 해당하는 Tag를 채우는 것이라서 Slot Filling이라고 한다.

  • Blue : Subject
  • Red : Object

The TAC Relation Extraction Dataset

TACRED : Tackle Relation Extraction Dataset

이전에는 TAC KBP relations이 있었다. 예는 Knowledge Base를 확장시키려는 목적.

TAC KBP의 2009-2015 데이터를 사용했음. 작업자들에게 주석을 달게했음.

2009-2012는 traning set, 2013 devel set, 2014 test set, 2015 for evaluation으로 나누었다. 그치만 년도별로 데이터를 나누는게 맞을까 하는 의문은 있음. 년도 별로 나누는게 물론 쉽고 간단하지만 entity의 종류나 개수가 imbalance 할 수 있음

기존보다 더 많은 릴레이션을 가지고 있는 것이 장점. 19.1의 1.5배 되는 39.4의 길이를 가지고 있다. 그러면 문장이 좀 더 복잡해졌다는 것이고 태스크의 난이도가 상승했다는 뜻.

Appendix

Data Collection에서는 LDC 방식(Figure 7, 8)과 Generated 방식을 사용함

  • lDC : 두 단계에 거쳐서 태킹함. 주체와 대상을 찾고 관계를 태깅

  • Generated : 스탠포드에서 관계를 만들어주는 시스템을 이용. 주체와 대상이 등장 했을 때 관계만을 태킹

  • HIT : Human Intellegence Task, 데이터 자체를 작업자들에게 질문을 주는 방식으로 주석하는 방식 중 하나

Data Validation

  • 작업자들의 작업을 신뢰하기 위해, Gold set을 제공하며 이 중 25% 이상 오류를 만들어내면 신뢰할 수 없다고 판단함.
  • 이것에 대해서는 재작업을 하게 했음

클라우드 소싱에서는 중간중간 함정을 추가했음

300개 정도의 태스크는 매뉴얼로 체크했다.

5명이 task를 풀게해서 정답을 잘 매칭했는지 비교. 3명 이상이 정답을 매칭했을 확률은 100%

no_relation이 압도적으로 가장 많고 이후에 per:employee 비율이 많음. 대부분은 1%도 차지하지 않음. 그치만 train, dev, test의 비율을 비슷한 것을 볼 수 있음

KBP는 두 가지 태스크로 이루어져 있음

  • Slot Filling : 두 가지 엔티티의 관계를 채우기
  • Entity Linking : 지식 베이스에 해당하는 엔티티를 연결해주는 것

(정의는 스탠포드 NLP 그룹에 있는 정의를 사용)

2. KLUE:Korean Language Understanding Evaluation

목차

Overview

RE는 텍스트에 등장하는 두 엔티티의 관계를 정의하는 것. SUBJ와 OBJ와 Relation을 만드는 것이 목적.

18개 perseon relation, 11개 organization relation과 no_relation 사용.

F1 Score를 사용했고 이 때 no_relation은 포함하지 않음.

Data Construction

위키피디아나 위키트리 등에서 데이터 수집하고 kss로 개별 문장을 추출함.

새롭게 구성되거나 지워진 relation도 있다.

  • 드물게 등장하거나 아예 없는 relation
  • 텍스트 도메인이 달라지면 새로운 relation이 등장하거나 기존 relation이 삭제될 수 있음

Electra를 기반한 NER 모델을 통해 LABELING을 함

Entity pair를 뽑는 데 두 가지 방식을 씀

  • KB-Based 방식
  • Uniform sampling

DeepNatural이라는 크라우드 소싱 플랫폼을 사용. 5개의 문제 중 4개의 문제를 맞춘 작업자들로 작업

Evaluation Metrics

profile
깊게 배우고 신박하게 개발할래

0개의 댓글