지식그래프를 설계하는 4가지 단계
- 지식그래프를 만드는 목적을 세우고, 데이터를 어떻게 사용할지 구조를 설계 한다.
- 데이터 전처리(자연어처리와 태깅 작업) 및 데이터에 대한 구조화 설계
- 모델링 - 데이터의 연결 관계를 적재하게 되고, 연결되어있는 정보를 통해서 예측 알고리즘을 활용하면 새로운 관계가 형성 된다.
- 형성된 지식그래프를 조회하고 이를 서비스하는 시각화 단계
Domain-specific knowledge Graphs: A survey
본 연구는 도메인 특정 KG에 대한 포괄적인 정의를 처음으로 제안하며, 7개의 지식 도메인에 관한 최첨단 접근법을 종합적으로 검토하고, KG의 품질 및 제한 사항을 점검한다. 또한, 현재 접근법의 한계를 분석하고, 기존 문헌의 문제를 해결하기 위한 향후 연구의 방향성을 제안함으로써 지식 그래프 구축의 중요성과 잠재력을 강조한다.
1. Introduction
- 도메인별 KG에 대한 적절한 평가 조치가 적용되었는가에 대한 의문을 제기하였다.
- 지식의 동적 특성은 맥락적 상황과 높은 상관관계를 가지며, 개체를 설명하는 다양한 사실은 시간이 지남에 따라 변할 수 있어, 지식의 동적 특성을 무시한다면 KG가 나타내는 사실의 품질과 정확성을 떨어트린다는 문제를 제시하였다.
- 도메인 특정 KG의 포괄적인 정의를 제공하고, 7개의 도메인에서의 주요 KG 구성 접근법에 대한 분석한다. 각 사례의 KG가 어떻게 구축되었는지, KG 구축에 사용된 리소스, KG 임베딩 기술의 통합 여부, KG 구축 접근법을 평가하는 데 사용된 척도, 각 접근법의 한계와 단점, 한계를 해결하기 위한 개선 사항, 권장 사항 및 기회를 제안하여 향후 연구를 위한 방향을 제시한다.
2. Methodology - 방법론
- 자기들 논문 이렇게 많이 찾아 보고, 요새 관련된 논문이 쏟아지고 있다.
3. Preliminaries - 근거_중요한 사전 작업과 관련 용어
3.1 Generic Knowledge Graphs
3.2 Domain-specific Knowledge Graphs
"도메인 지식 그래프는 특정 주제 영역(도메인)과 그 하위 영역을 명시적으로 개념화한 것입니다. 이 그래프는 의미적으로 상호 연관된 엔티티(개체)와 관계들로 표현됩니다."
도메인에 독립적인 다양한 작업을 처리하기 위해 일반 및 오픈 월드 KG를 광범위하게 사용하고 있지만, 도메인별 문제를 해결하기 위해 도메인 코퍼스로부터 KG를 구축하는 것이 중요하다. 도메인별 KG는 도메인별 문제와 연관성이 있고 의미적으로 상호 연결된 애플리케이션을 가지고 있기 때문이다.
3.3 Knowledge Graph Construction
KG 구축은 엔티티와 이들 간의 관계를 추출하는 과정이다.

1) 지식 추출 level
- 엔티티 추출
- Named Entity Recognition (NER, 이름있는 엔티티 인식): 개인, 조직, 위치, 이벤트 및 기타 엔티티를 (비)구조화된 데이터 소스에서 찾는 과정
- Named Entity Disambiguation (NED, 이름 있는 엔티티 비식별): 추론된 엔티티의 모호성을 제거하고 이를 실제 세계의 실제 엔티티에 매핑하는 작업
- Named Entity Linking (NEL, 이름 있는 엔티티 연결): 모호성이 제거된 엔티티에 고유한 IRI(국제화 리소스 식별자)를 할당하는 작업
- 관계 추출
: 식별되고 모호성이 제거된 엔티티 간의 의미적 관계를 발견하는 작업
- 로컬 기반: 짧은 텍스트에서 관계 추론
- 글로벌 기발: 여러 로컬 관계를 연결하여 관계 추론
2) 지식 베이스 유형
- 스키마 기반(사전 정의된 온톨로지 사용):
- 상향식(bottom-up): 온톨로지 구조를 통합하여 KG 구축 (ex. Wikipedia - DBpedia 사용)
- 하향식(top-down): 기본 구조화된 데이터에서 온톨로지 스키마를 추론하거나 웹 정보를 기반으로 분류 계층 구축
- 스키마 없는: 웹의 개방성에 의존하는 공개 정보 추출 기술 (ex. OpenIE)
- 하이브리드: 스키마 기반과 스키마 없는 접근법 혼합 (ex. KnowledgeVault, NELL)
3) 구축 방법
: 웹 및 기타 데이터 저장소와 저장소를 채굴하여 엔티티와 관계를 추론
- 규칙(지식) 기반 접근법(Rule(Knowledge)-based) : 도메인 지식과 어휘 자원을 통합하여 도메인 전문가가 규칙(연관 규칙)을 설립
- 반(비)지도 학습 기반 방법(Un(Semi-) Supervised): (반)지도 학습 기법 사용
(ex. 조건부 확률장(CRF), 히든 마르코프 모델(HMM), 서포트 벡터 머신(SVM), 나이브 베이즈(NB), 로지스틱 회귀(LR), 의사결정 나무, 부트스트랩 방법 등)
- 신경망 모델(Neural Networks): 특징을 추론하기 위해 신경망과 딥러닝을 통합하여 특징을 추론. 도메인에 독립적인 KG에 적합.
(ex.컨볼루션 신경망(CNN), 순환 신경망(RNN), 양방향 장기 기억망(BiLSTM))
- 기성 NLP 도구(off-the-shelf): 상용/오픈 소스 도구로 텍스트 분석 및 엔티티와 관계 추출
(ex. spaCy, Stanford CoreNLP, AllenNLP, IBM Watson NLU)
3.4 Knowledge Graph Embedding (KGE)
- 정의: 지식 그래프의 구성 요소(엔티티와 관계)에 대한 특징 벡터 표현을 생성하는 과정
- 목적: 수치적 기법을 적용하여 확장 가능하고 효과적인 결과를 도출
- 장점: 전통적인 그래프 표현(ex. 인접 행렬)이 부적합한 복잡한 문제 해결
- 활용: KG 완성, 엔티티 인식, 링크 기반 클러스터링 등의 문제를 해결
- KGE의 핵심 아이디어: KG의 각 엔티티와 각 관계에 대한 벡터를 생성한 후, 저차원 임베딩 벡터 공간에서 두 엔티티 간의 공간 거리를 측정하기 위해 점수 함수를 정의하는 것이다.
- 목표: KG의 잠재적 의미를 포착하여 유사한 엔티티와 관계를 유사한 벡터로 표현하고, 의미적으로 연결되지 않은 것들은 분리되는 것
- KG 임베딩 학습 과정:
1단계: 엔티티와 관계를 벡터로 변환하여 의미적 공간에 배치
2단계: 트리플에서 정보를 결합하기 위한 점수 함수나 모델별 함수 적용
3단계: KG 임베딩 과정에서 목표가 정의되고 최소화되는 최적화 절차를 손실 함수로 표현하여 적용
- KG 임베딩 모델
TransE: 엔티티와 관계를 동일한 저차원 의미 공간에서 벡터로 학습.
DistMult: RESCAL을 확장 및 단순화한 모델로, 관계를 단일 벡터로 인코딩.
ComplEx: DistMult를 확장하여 복소수 값 임베딩 도입.
HolE: RESCAL의 강점과 DistMult의 단순성을 결합한 모델.
ConvE: 다층 신경망을 사용하여 입력 엔티티와 관계 간의 상호작용을 해결.
ConvKB: 신경망을 활용하여 엔티티와 관계의 연결성을 학습.
3.5 Knowledge Graph Evaluation(평가)
1) 지식그래프 평가의 필요성
- 문제: 대규모 지식 그래프(KG)의 확산은 포함된 지식(즉, 엔티티와 관계)의 품질, KG에 포함된 사실들이 실제 세계의 개념들을 정확하게 전달하는지 검증이 필요하다. 완전성과 정확성을 검증하는 것은 다양한 응용 프로그램에 KG가 얼마나 적합한지 평가하는 데 필수적이다.
4. Domain-specific KGs - 7가지 영역에서 KG 구축 접근법 분석과 연국 결과와 확인된 연구 공백에 대한 논의