쉽게 이해하는 온톨로지 실무

남서현·2026년 4월 5일

Zigzag Seminar

Seminar

목록 보기

3/3

지그재그 세미나 4회

주제: 쉽게 이해하는 온톨로지 기술 실무 (그래프 모델의 선택과 온톨로지 구축 전략)
일시: 2026년 3월 11일 (수) 오후 7시
장소: GS타워 25층 (역삼역 인근) 오픈이노베이션 오픈홀

먼저, 우리는 왜 온톨로지를 구축하려고 하는것인가?

우리는 현재 저장의 시대에서 탐색, 연결, 해석, 재사용의 시대로 데이터의 주요 소비자와 환경이 변화하였다.

> 현재 우리가 겪는 가장 큰 어려움은 "~~데이터 양의 부족~~"이 아니라 여러 시스템과 문서에 흩어진 "같은 대상"을 "서로 다른 이름과 구조"로 표현하고 있는 것이 가장 큰 장애물 이라는 의미이다.

고유한 맥락과 의미구조에 대한 보장/ 검증이 되는가?
따라서 우리는 단순 검색을 넘어 개체 간 관계를 따라가며 여러 단계를거쳐 답을 도출하는 과정에서 무엇이 무엇과 연결되고, 어떤 제약과 규칙 아래에 있으며, 무엇을 근거로 실행해야 하는지를 판단해야 한다.

즉, 우리는 데이터와 지식을 묶는 공통의 언어가 필요하다.

--> 온톨로지 구축은 있으면 좋은 지식표현 기술, 단순 RDF/OWL 문서를 AI, 데이터, 통합, 자동화를 동시에 성립시키는 기반이 되며, 사람과 AI가 대상 세계를 온전하게 이해하게 만드는 확실한 방법이다.

1. 시멘틱 웹과 온톨로지

RDF/RDFS/OWL, 지식그래프, Property Graph

Semantic Web의 개념

"의미를 이해하는 웹"
웹이 인간의 두뇌를 닮기 위해서는 정보를 단지 축적하거나 연결하는 것만이 아닌, 그 의미까지 이해하고 기계가 처리할 수 있어야 한다.

Tim Berners-Lee : WWW의 창시자로서, 인터넷 상의 하이퍼미디어를 넘어 데이터의 의미까지 기계가 이해하고 처리할 수 있는 형태로 확장한 '시멘틱 웹' 개념과 아키택처를 제안함

기존 웹 (Web of Documents)

문서(Web page) 중심의 분산 네트워크, URL(Uniform Resource Locator)를 사용해 문서의 '위치'를 참조하고 하이퍼링크로 연결
시멘틱 웹 (Web of Data)

데이터(Data) 차원의 분산 네트워크, URI (Uniform Resource identifier)를 사용해 데이터/엔티티 자체를 전역적으로 식별하고 연결

계층적 구조 (Layered Cake)
팀 버너스 리가 제안한 웹 아키텍처로, 하위 계층은 상위 계층을 위한 기반을 제공한다. 위로 올라갈수록 데이터의 의미(Semantics)와 추론 능력이 강화된다.

RDF (Resource Description Framework)

웹 자원 기술의 표준, 웹상에 존재하는 자원의 속성과 관계를 기술하기 위한 W3C 표준 데이터 모델
트리플 (Triple) 구조: 모든 정보는 주어 (Subject) - 서술어 (Predicate) - 목적어 (Object)의 3요소 (Triple) 형태로 표현됨
기계 해석 가능성: 그래프 구조로 연결된 데이터는 기계가 그 의미와 맥락을 파악하고 자동으로 처리/추론 할 수 있게함

RDF의 주요 구성 요소: 자원의 식별(Identifier), 값의 표현(Literal), 데이터셋 관리(Graphs)

식별자 (Identifiers)

URI (Uniform Resource Identifier)
웹상의 자원을 고유하게 식별하는 전역 식별자, UR의 개념을 확장하여, 문서 뿐만이 아니라 개념, 사물 등 모든 엔티티를 유일하게 지칭함, 다른 시스템에서도 동일한 대상을 식별/재사용 가능
Compact URI (CURIE)
긴 URI를 효율적으로 표현하기 위해 Name Space(접두어)를 사용하여 축약한 형태

값과 그래프 (Values & Structure)

Literal (리터럴)
자원의 속성 값(문자열, 숫자, 날짜 등)을 표현, 오직 Object(목적어) 위치에만 등장 가능
Multiple Graphs
여러개의 RDF 그래프를 하나의 데이터셋으로 관리, 출처(Provenance), 접근제어, 메타데이터 관리를 위해 사용 ex) Default graph: 이름 없는 기본 그래프, Named graph: IRI로 식별되는 그래프 (Quad 구조)

RDF 표현

기계와 사람이 읽을 수 있는 다양한 표현 방식

Turtle (Terse RDF Triple language): 가장널리 사용되는 인간 친화적 포맷, 중복을 줄이고 가독성을 높인 문법
N-Triples: 가장 단순한 형태, 한줄에 하나의 트리플을 온전한 URI로 표현, 파싱이 매우 빠름
JSON-LD: JSON 기반의 Linked Data 포맷, 웹 개발자에게 친숙하면 API 응답용으로 주로 사용
RDF/XML: 초기 표준 형식, XML의 복잡성으로 인해 현재는 가독성이 좋은 Trutle 등을 선호

RDFS (RDF Schema)

어휘의 의미와 상하위 관계를 정의하는 시맨틱 웹의 분류체계

어휘 및 의미정의
단순 데이터 연결을 넘어, Class(개념)와 Property(속성)를 정의하여 데이터가 어떤 의미를 갖는지 기계에게 설명하는 사전역할을 함
분류 체계 (Taxonomy)
subClassOf(하위 클래스)와 subPropertyOf(하위 속성)를 사용하여 개념 간의 계층 구조와 상속 관계를 형성
관계의 제약 조건
속성이 연결돌 수 있는 주어의 타입(Domain)과 목적어의 타입(Range)를 지정하여 논리적 무결성을 보장하고 추론의 근거를 제공

RDFS 추론 메커니즘
스키마 정보 (Domain, Range, SubClass)를 기반으로 새로운 사실을 도출하는 과정

OWL

Web Ontology Language, 지식표현을 위한 상위 논리 모델링 계층

Description Logic 기반
RDFS 위에서 동작하며, 서술논리를 기반으로 하여 사물간의 복잡하고 풍부한 관계를 명확하게 정의하고 추론(Resoning)할 수 있는 언어
향상된 표현력
단순 계층 구조를 넘어 집합 연산(교집합, 합집합), 카디널리티(개수 제한), 속성 특성(대칭, 전이, 역관계) 등 정교한 제약조건을 표현할 수 있음
OWL 버전과 Profile
2004년 OWL에 이어 2009년 OWL2가 발표되었으며, 사용 목적과 연산 복잡도에 따라 EL, QL, RL 등 다양한 profile을 제공함

What is Ontology?

지식 표현을 위한 인공물로서의 온톨로지 개념

"An ontology is an explicit and formal specification of a shared conceptualization of a domain of interest" - Tom Gruber (1993)

철학(존재론): '존재의 본질'을 탐구하며 세상에 무엇이 존재하는가를 다룸
정보기술(IT): 특정 도메인의 지식 공유와 재사용을 위한 '설계된 인공물(Artifact)'
철학적 뿌리를 가지지만, IT에서는 기계가 처리가 가능한 명세에 초점

온톨로지의 구성요소

지식 표현을 위한 구성 요소

개념 (Concept): 특정 영역의 사물이나 현상에 대한 추상적 분류 (Class)
인스턴스: 개념에 속하는 구체적인 개별 실체 (Individual)
속성 (Property): 개념이 가지는 특성이나 데이터 값 (Attribute)
관계: 개념간의 상호작용 및 연결 구조 (Relation)
공리 (Axiom): 증명없이 참으로 간주되는 논리적 규칙
제약조건: 속성 값이나 관계에 대한 논리적 제한

Knowledge Graph

의미모델과 데이터가 결합된 지식표현구조

스키마와 데이터의 결합: 단순한 node와 edge의 연결이 아니라, 도메인의 개념적 정의인 스키마(Schema/Ontology)와 그 정의에 기반한 실제 데이터(Instance)가 결합된 결과물
의미 기반 추론 가능: 의미(Semantics)의 공유와 일관성을 보장하며, 정의된 관계와 규칙을 바탕으로 새로운 사실을 도출하는 추론(Resoning) 및 탐색이 가능
구성의 필수 요소: 지식그래프는 스키마(필수)와 데이터(필수)가 모두 존재해야 하며, 이는 단순한 Graph DB와 구분되는 가장 큰 특징임

Property Graph (PG)

Node와 Edge 내부에 Key-Value 속성을 저장하는 구조 중심의 모델

Key-Value 속성 중심: 노드와 엣지 자체가 내부 속성(Property)를 가질 수 있는 구조, 엔티티와 관계에 대한 상세 데이터를 직관적으로 저장하고 그래프 순회에 유리한 모델
구조 및 분석 중심: 개념적 타입 (label)은 필수 요소가 아니며, 관계의 의미보다 연결 구조와 데이터 분석에 최적화된 네트워크 모델
표준 퀴리 언어의 부재: RDF의 SPARQL과 같은 단일 글로벌 표준이 없으며 주로 Gremlin 쿼리 언어를 사용하여 데이터를 조회함

Labeled Property Graph (LPG)

Property Graph에 명시적 Label이 추가된 모델

PG 구현 모델 (Implementation): 추상적인 Property Graph 개념을 실제 시스템에서 사용할 수 있도록 구체화한 모델, Neo4j, TigerGraph, Azure, Cosos DB등 대부분의 상용 그래프 DB가 채택하고 있으며, 실무에서 가장 많이 사용됨
명시적 타입 시스템: PG와 달리, Node Label (개념 타입)과 Edge Type (관계유형)이 구조 수준에서 명시적으로 필수화되어 있음. 이를 통해 효율적인 인덱싱과 탐색이 가능
퀴리 언어 지원: Cypher, GQL, GSQL 등 종속성이 강한 쿼리 언어가 사용됨, 비록 공식 글로벌 표준은 아니지만, 실무에서 널리 쓰이는 사실상의 표준 (De facto) 역할을 함