직접 RE 태스크에서 사용할 데이터를 제작해보기
['유물사관', '증산도', '중국의 미술', '실증사관', '발레', '인상주의', '연극', '역사학', '일본의 미술', '추상 (예술)', '역사적 유물론', '조로아스터교', '서양음악', '식민사관', '희곡', '아시아의 음악', '입체주의', '바로크', '기독교', '드라마', '마술', '공연 예술', '서정시', '마르크스주의', '아브라함 종교', '야수파', '인도의 음악', '상징주의', '한국음악', '미술의 역사', '유대교', '로코코', '미학', '메소포타미아 미술', '극시', '시 (문학)', '인문학', '도교', '원불교', '다다이즘', '힌두교', '문학', '아방가르드', '서커스', '민족사관', '르네상스', '종교', '수필', '신고전주의', '불교', '사실주의', '음악사학', '초현실주의', '표현주의', '변증법적 유물론', '역사관', '서양 미술사', '오페라', '이슬람교', '아랍 음악', '미술사', '중국 음악', '소설', '일본 음악', '뮤지컬', '역사', '행위 예술', '한국의 미술', '역사주의', '춤', '유교', '음악회', '서사시', '대륙사관', '아르 누보']
(한국어 위키피디아 https://ko.wikipedia.org/ CC BY-SA 3.0)
클래스명(한) | 클래스명(영) | 타입(sub, obj) | 설명 | 예시 문장 |
---|---|---|---|---|
관계_없음 | no_relation | (, ) | 관계를 유추할 수 없음. 정의된 클래스 중 하나로 분류할 수 없음 | 《오페라의 유령》은 프랑스의 작가 가스통 르루의 원작 소설을 찰스 하트가 뮤지컬 극본으로 만들고 뮤지컬 음악의 귀재 앤드류 로이드 웨버가 작곡하였다. |
체계:생성일 | sys:founded | (SYS, DAT) | Object는 Subject가 발생한 날짜, 연도, 연대, 시기 | 인상주의라는 이름은 1874년 4월 25일 미술 비평가 르로이가 파리의 전시회에서 비판적인 뜻으로 사용한 것에서 유래하며, 오늘날 서양 미술사에서 19세기 후반을 대표하는 사조로 쓰이고 있다. |
체계:파생물 | sys:subsystem | (SYS, SYS) | Object는 Subject의 하위&파생 개념, 단체, 체계 | 연극을 위한 대본집을 희곡이라고 하며 이는 문학의 하위 장르 중 하나이다. |
체계:발생지 | sys:birthplace | (SYS, LOC) | Object는 Subject가 발생한 장소, 나라, 지역, 도시 | 힌두교는 고대 인도에서 발생하였다. |
체계:생성물 | sys:creation | (SYS, POH) | Object는 Subject를 기반으로 만들어진 생성물 | 힌두교의 주요 경전인 베다는 기원전 1500년 경에 성립되어 베다 산스크리트어로 기록되었다. |
체계:관계자 | sys:member_of | (SYS, PER) | Object는 Subject의 창시자, 추종자, 관계자 | 이미 1980년대부터 김구림, 성능경, 이강소, 이승택 등의 행위예술 작가들은 이런 작업을 시도하고 있었다. |
사람:활동시기 | per:period_of_activity | (PER, DAT) | Object는 Subject의 활동 시기, 시간대, 시대, 연도 | 이미 1980년대부터 김구림, 성능경, 이강소, 이승택 등의 행위예술 작가들은 이런 작업을 시도하고 있었다. |
사람:관련인 | per:related_person | (PER, PER) | Object는 Subject와 밀접하게 관계 있는 인물(가족, 사제, 동료) | 발해 3대 왕인 문왕은 딸이었던 정효공주와 정혜공주가 죽자 각각 묘를 만들어 주었다고 한다. |
사람:연고지 | per:related_location | (PER, LOC) | Object는 Subject의 연고지(출생, 성장, 활동) | 평화를 위해 헌신해 온 베트남 출신의 불교지도자 틱낫한(釋一行, Thich Nhat Hanh) 스님이 이끄는 수행공동체인 Plum Village가 프랑스 보르도에 소재하고 있으며, 유럽과 미국, 베트남 등지의 스님들과 재가불자들이 주로 모여 있다. |
사람:저작물 | per:creation | (PER, POH) | Object는 Subject의 저작물 | 플라톤이 <국가>에서 제시한 삼계급설과 유사하다. |
# raters = 5, # subjects = 1656, # categories = 9
PA = 0.8977053140096601
PE = 0.17578872902518144
Fleiss' Kappa = 0.876
train(60%)
dev(20%)
test(20%)
로 라벨 간 비율을 보장하여 분할
label | train | dev | test |
---|---|---|---|
no_relation | 187(18.8%) | 75(22.6%) | 87(26.2%) |
sys:subsystem | 218(21.9%) | 43(12.9%) | 52(15.6%) |
sys:member_of | 149(15.0%) | 50(15.1%) | 41(12.3%) |
sys:founded | 108(10.8%) | 37(11.1%) | 27(8.1%) |
sys:creation | 81(8.1%) | 27(8.1%) | 32(9.6%) |
sys:birthplace | 44(4.4%) | 23(6.9%) | 14(4.2%) |
per:creation | 97(9.7%) | 46(13.8%) | 41(12.3%) |
per:related_location | 43(4.3%) | 15(4.5%) | 23(6.9%) |
per:related_person | 34(3.4%) | 8(2.4%) | 11(3.3%) |
per:period_of_activity | 32(3.2%) | 7(2.1%) | 4(1.2%) |
total = 1656(100%) | 993(60%) | 331(20%) | 332(20%) |
micro f1 | auprc | accuracy |
---|---|---|
92.369 | 96.334 | 0.9157 |
‘관계_없음’을 다른 라벨로 오판별 하는 사례가 가장 많았음
‘사람:관련인’ 을 ‘관계_없음’으로 오판별하는 사례가 두 번째로 많이 있었음
생각보다 dev, test셋의 metric 지표값이 높게 나왔다.
관계를 정의할 때 Type별 조합을 하나씩만 만들어 main tagging 난이도가 많이 쉬워졌다.
git으로 코드관리를 하지 않아 tagging시에 혼란이 생겼다.
데이터 도메인에 대한 이해의 부족