Zhang, Ningyu, et al., "DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population", arXiv preprint arXiv:2201.03335, 2022
수 많은 데이터 속에서 필요한 정보만을 추출하는 IE(Information Extraction) 기술이 발전을 거듭하고 있다. IE 기술의 발전에 따라 대규모의 Knowledge Base 역시 구축 되고 있는데, 지식 베이스는 현실 세게에서 지식 집약적인 업무에 많은 도움을 준다. 따라서 KBP(Knowledge Base Population) 또한 각광을 받고 있는 분야 중 하나인데, KBP라 함은 텍스트로부터 지식을 추출해 KB의 손실된 부분을 완성하는 작업이다. 원문에서 entity와 관계를 추출하고, 이것들을 KB에 연결시켜주는 IE 작업은 여기서도 용이하게 쓰이고 있다.
Named Entity Recognition(NER), OpenNRE(RE), Stanford OpenIE(IE), RESIN(Event Extraction)와 같은 IE toolkit들이 개발 되었지만 아직은 실제 프로그램에 적용하는데엔 한계가 있다.
우선 이들은 다양한 IE 작업이 가능하지만, 기존의 툴킷들은 단지 하나의 작업만 처리할 수 있다. 또한 비록 기존의 IE 모델들이 좋은 성과를 냈을지라도 그들의 성능은 텍스트 뿐만 아닌 여러 타입의 데이터를 다루는 실제 시나리오에 적용한다면 성능이 기하급수적으로 떨어진다. 따라서 다수의 테스크를 처리하는 Knowledge Extraction tooklkit이 필요하다.
이 논문에선 DeepKE란 Knowledge Extraction Toolkit을 제안하는데, 이는 적은 자원, 문서 수준, 그리고 멀티모달 환경에서의 지식 추출 작업(NER, RE, AE)을 가능하게 한다.
low resource few-shot, document-level, multimodal 환경에서의 다양한 IE task 지원으로, 시나리오에의 유연한 응용이 가능하다. DeepKE는 NER, RE, AE의 세가지 IE task를 지원하고 있다.
DeepKE는 데이터, 모델, 핵심 요소와 관련한 다양한 task에 모두 같은 프레임워크를 사용한다. 또한 자동화된 hyper-parameter 튜닝과 도커로 편리한 트레이닝과 평가를 제공하며 IE에 사전훈련된 모델을 사용한다.
데이터셋 내의 모든 instance들은 단 하나의 문장만을 포함한다. single sentence의 NER, RE, AR 작업을 위한 데이터셋은 모두 entity mention, entity 카테고리, entity offset, realtion type, attribute 과 같은 특정한 정보로 주석이 달려있다.
실제 상황에선 라벨링된 데이터가 딥러닝 모델이 정확한 예측을 수행할만큼 충분히 제공되지 않기 때문에 NER과 RE 작업시 low-resuorce few-shot이 요구된다. DeepKE는 도메인 내부 또는 범도메인적인 NER을 위해 prompt-guided attention이 있는 generative framework를 제공한다. 또한 few-shot RE 작업을 위해 synergistic optimization이 있는 knowledge-informed prompt tuning 역시 제공한다.
두 entity 사이의 관계는 한개의 문장 뿐만이 아닌, 전체 문서의 각기 다른 문장 사이에서도 나타난다. DeepKE는 문서로부터 문장 내 관계를 추출하여 전역/광역적이니 정보를 포착하기 위한 entity level relation matrix를 예측하는데 사용한다.
텍스트와 관련된 이미지 신호는 context knowledge를 향상시키고 복잡한 시나리오부터 지식을 추출하는데 도움이 된다. DeepKE는 트랜스포머 기반 multimodal entity와 relation 추출 방법인 IFAformer를 제안하였는데, IFAformer는 Multimodal NER과 RE 작업을 위한 prefix 기반 attention을 사용한다. IFAformer의 트랜스포머에서 multi-head attention의 key와 value에 있는 textual, visual feature들을 동시에 통합하여 텍스트와 관련된 이미지에서 text-object 간 multimodal feature를 정렬할 수 있다.
IFAformer의 구조는 이와 같다.
위 링크를 통해 온라인 환경에서 DeepKE를 사용해 볼 수 있다. 모델을 다국어(영어, 중국어)의 다른 시나리오 내에서 훈련시키고 훈련된 모델을 온라인에 공개하였다. 해당 시스템을 통해 원문에서 NER, RE, AR 작업이 바로 가능하고 추출된 relational triple들을 지식 그래프로써 확인 할 수 있다.
only for multimodal settings
