
2024년 이후 LLM(대형 언어 모델)이 고도화됨에 따라, 사람들은 단순한 성능을 넘어 자원의 효율성과 환각(Hallucination) 현상 해결에 집중하기 시작했다. 이는 데이터 업데이트 시 모델 전체를 재학습시키는 막대한 비용 부담과, 정확한 근거 없이 그럴듯한 오답을 내놓는 생성형 AI의 고질적인 문제에서 비롯되었다.
이러한 한계를 극복하기 위해 RAG(Retrieval-Augmented Generation)와 같은 "검색 기반 데이터 증진" 기술이 대두되었다. 아마 AI를 공부하는 사람이라면 무조건 들어봤을 것이다.
이 과정에서 단순히 텍스트 조각을 찾는 것을 넘어, 데이터 간의 유기적인 관계를 파악할 수 있는 데이터 형태가 주목받았는데, 그것이 바로 지식그래프(Knowledge Graph)이다.
🤠
지식그래프(Knowledge Graph, KG)는 현대 AI와 빅데이터 시대의 핵심 기술로, 구글 검색 엔진부터 기업용 데이터 분석까지 이미 우리 일상 곳곳에서 널리 쓰이게 되었다.
지식그래프는 이름 그대로 지식을 '거미줄(Graph)'처럼 엉켜 있는 형태로 표현한 것이다. 단순히 개별적인 데이터를 나열하는 것이 아니라, 데이터 사이의 '관계'를 촘촘하게 엮어져 있다.

학술적으로 지식그래프 모델링이란, 지식을 효율적으로 저장하고 검색(Querying)하며, 새로운 정보를 찾아내기(Reasoning) 위해 그래프 형태로 구조화하고 표현하는 일련의 과정을 의미한다.
🕸️ 지식 그래프의 구성:
- 노드(Nodes/Entities): 사람, 제품, 장소와 같은 실세계의 객체.
- 엣지(Edges/Relations): 객체들 사이를 잇는 관계.
- 레이블(Labels): 사람이 읽을 수 있고 기계가 식별할 수 있는 의미 있는 이름.
이러한 형식의 지식 그래프를 사용할 때의 장점은 무엇일까?
지식그래프는 전통적인 데이터베이스와 비교했을 때 다음과 같은 독보적인 강점을 가진다.
| 주요 장점 | 상세 설명 | 기대 효과 |
|---|---|---|
| 의미적 명확성 (Semantic Meaning) | 데이터의 맥락과 의미를 강조하여 해석 가능성을 극대화함 | 기계가 데이터의 '진짜 의미'를 이해 |
| 강력한 연결 및 추론 (Reasoning) | 흩어진 데이터를 연결하여 숨겨진 관계를 논리적으로 찾아냄 | 지능형 추천 및 의사결정 지원 |
| 유연한 구조 (Flexible Schema) | 고정된 틀이 없어 새로운 데이터나 관계를 추가하기가 매우 용이함 | 변화하는 비즈니스 환경에 빠르게 대응 |
| 다중 관계 표현 (Multi-relational) | 엔티티 사이에 수많은 종류의 복잡한 관계를 동시에 정의 가능 | 현실 세계의 복잡성을 그대로 반영 |
지식그래프가 단순히 연결된 데이터를 넘어 '지능'을 갖게 되는 이유는 데이터를 웹상에서 기계가 해석할 수 있는 표준 규격으로 구현하기 때문이다.
# 이때 지능을 갖는다는 표현은 곧 '사람이 일일이 가르쳐주지 않아도
기계가 규칙과 맥락을 통해 스스로 정보를 판단하고 연결할 수 있는 구조가 되었다.'는 뜻이다.
조금 더 자세한 내용은 아래에서 다시 설명하도록 하겠다.
웹 페이지에 "Apple"이라는 단어가 있을 때, 이 단어가 과일인지 기업인지 기계는 명확히 구분이 어려움.
(Apple, type, Company) 또는 (Apple, type, Fruit)와 같이 관계를 명시하여 혼동을 방지
가령 기존의 Web Documents가 Wikipidia라면 Semantic Web Documents는 WikiData 데이터 형태인 것이다.
🍰 Semantic Web Layer Cake (계층 구조)
시맨틱 웹은 아래에서 위로 쌓이는 기술 계층으로 구성된다.
- 기초: URI/Unicode (식별 및 문자)
- 구조화: XML, RDF, RDFS (데이터 모델 및 스키마)
- 논리 및 추론: OWL (온톨로지), Rules, Logic, Proof
- 보안 및 신뢰: Digital Signature, Encryption, Trust
- 인터페이스: SPARQL (쿼리 언어)
그렇다면 Knowledge Graph란?
지식을 그래프 형태로 "구조화 (Structuring), 표현 (Representing), 그리고 조직화 (Organizing)"하는 프로세스
이는 효율적인 저장, 쿼리(Querying, 데이터 검색 및 질의), 그리고 추론 (Reasoning)을 가능하게 하기 위함이다.
핵심 구성요소는 아래와 같다.
- 노드(Nodes/Entities): 사람, 제품 등 실세계의 객체.
- 엣지(Edges/Relations): 엔티티 간의 관계.
- 레이블(Labels): 기계와 사람이 식별할 수 있는 의미 있는 식별자.
이 데이터 구조의 특징은 다중 관계성(Multi-relational), 유연한 스키마, 그리고 의미적 명확성이 또렷하다.
RDF는 웹상의 정보를 표현하기 위해 W3C에서 표준화한 모델이다.
예시: Alice(Subject) --hasFriend(Predicate)--> Bob(Object) 식별자: URI, URL, IRI
RDF 그래프를 구성하는 노드는 세 가지 유형이 있다.
| 노드 유형 | 의미 및 특징 | 트리플 내 위치 (Triple Position) |
|---|---|---|
| URI (IRI) Node | 리소스를 고유하게 식별하는 글로벌 식별자 | 주어, 술어, 목적어 모두 가능 |
| Literal Node | 텍스트, 숫자, 날짜 등 실제 데이터 값 | 목적어(Object) 위치만 가능 |
| Blank Node | 고유 식별자가 없는 익명 리소스 | 주어(Subject) 또는 목적어(Object) 가능 |
RDF 데이터를 컴퓨터 파일 형태로 저장하고 전송하는 방식들이다.
앞서 Preliminary부분에서 말한 바와 같이, 지식그래프가 단순히 연결된 데이터를 넘어 '지능'을 갖게 되는 이유는 데이터를 웹상에서 기계가 해석할 수 있는 표준 규격(RDF, OWL 등)으로 구현했기 때문이다. 이렇게 구축된 지식그래프는 다음과 같은 방식으로 지능적으로 작동한다.

1. 단순 연결을 넘어선 '논리적 추론' (Reasoning)
일반적인 데이터베이스는 우리가 입력한 데이터만 찾아줍니다. 하지만 지식그래프는 명시적으로 적어주지 않은 사실도 기계가 스스로 찾아낼 수 있다.
예시: A는 B의 아버지다와 B는 C의 아버지다라는 데이터를 넣으면, 기계가 논리 규칙을 통해 A는 C의 할아버지다라는 새로운 지식을 스스로 도출한다.
이러한 자동화된 추론(Automated Reasoning) 능력 활용이 가능해진다.
2. 데이터 스스로가 가진 '자기 설명력' (Semantic Meaning)
기존 웹 문서(HTML)는 기계 입장에서 그저 '글자 뭉치'이다. 하지만 시맨틱 웹 표준(RDF)을 따르면 데이터에 '의미'가 뒤따라 붙는다.
3. 유연한 확장을 통한 '맥락 이해' (Context)
지식그래프는 다중 관계(Multi-relational)를 지원하며 틀이 정해져 있지 않다.
효과적인 지식그래프 구축을 위해서는 단순한 데이터 수집을 넘어, 기계가 추론할 수 있는 논리적인 모델링이 필수적이다.
이러한 작동 방식 덕분에 지식그래프는 LLM의 할루시네이션을 억제하고, 정교한 RAG 시스템을 구축하는 데 있어 필수적인 '지식의 뼈대' 역할을 수행하게 된다.
하지만 사실상 민간 차원에서 지식그래프를 구축하기에는 모델링 부재 시 데이터가 오도(Misleading)될 위험과 대규모 분산 데이터 관리 및 전문 인력 확보에 따른 비용 과다라는 점들이 있어 실질적으로 불가능에 가깝다.