
주제: 쉽게 이해하는 온톨로지 기술 실무 (그래프 모델의 선택과 온톨로지 구축 전략)
일시: 2026년 3월 11일 (수) 오후 7시
장소: GS타워 25층 (역삼역 인근) 오픈이노베이션 오픈홀

먼저, 우리는 왜 온톨로지를 구축하려고 하는것인가?
우리는 현재 저장의 시대에서 탐색, 연결, 해석, 재사용의 시대로 데이터의 주요 소비자와 환경이 변화하였다.

> 현재 우리가 겪는 가장 큰 어려움은 "
데이터 양의 부족"이 아니라 여러 시스템과 문서에 흩어진 "같은 대상"을 "서로 다른 이름과 구조"로 표현하고 있는 것이 가장 큰 장애물 이라는 의미이다.

고유한 맥락과 의미구조에 대한 보장/ 검증이 되는가?
따라서 우리는 단순 검색을 넘어 개체 간 관계를 따라가며 여러 단계를거쳐 답을 도출하는 과정에서 무엇이 무엇과 연결되고, 어떤 제약과 규칙 아래에 있으며, 무엇을 근거로 실행해야 하는지를 판단해야 한다.

즉, 우리는 데이터와 지식을 묶는 공통의 언어가 필요하다.
--> 온톨로지 구축은 있으면 좋은 지식표현 기술, 단순 RDF/OWL 문서를 AI, 데이터, 통합, 자동화를 동시에 성립시키는 기반이 되며, 사람과 AI가 대상 세계를 온전하게 이해하게 만드는 확실한 방법이다.

"의미를 이해하는 웹"
웹이 인간의 두뇌를 닮기 위해서는 정보를 단지 축적하거나 연결하는 것만이 아닌, 그 의미까지 이해하고 기계가 처리할 수 있어야 한다.
Tim Berners-Lee : WWW의 창시자로서, 인터넷 상의 하이퍼미디어를 넘어 데이터의 의미까지 기계가 이해하고 처리할 수 있는 형태로 확장한 '시멘틱 웹' 개념과 아키택처를 제안함
문서(Web page) 중심의 분산 네트워크, URL(Uniform Resource Locator)를 사용해 문서의 '위치'를 참조하고 하이퍼링크로 연결
데이터(Data) 차원의 분산 네트워크, URI (Uniform Resource identifier)를 사용해 데이터/엔티티 자체를 전역적으로 식별하고 연결


RDF의 주요 구성 요소: 자원의 식별(Identifier), 값의 표현(Literal), 데이터셋 관리(Graphs)
URI (Uniform Resource Identifier)
웹상의 자원을 고유하게 식별하는 전역 식별자, UR의 개념을 확장하여, 문서 뿐만이 아니라 개념, 사물 등 모든 엔티티를 유일하게 지칭함, 다른 시스템에서도 동일한 대상을 식별/재사용 가능
Compact URI (CURIE)
긴 URI를 효율적으로 표현하기 위해 Name Space(접두어)를 사용하여 축약한 형태
Literal (리터럴)
자원의 속성 값(문자열, 숫자, 날짜 등)을 표현, 오직 Object(목적어) 위치에만 등장 가능
Multiple Graphs
여러개의 RDF 그래프를 하나의 데이터셋으로 관리, 출처(Provenance), 접근제어, 메타데이터 관리를 위해 사용 ex) Default graph: 이름 없는 기본 그래프, Named graph: IRI로 식별되는 그래프 (Quad 구조)
기계와 사람이 읽을 수 있는 다양한 표현 방식
Turtle (Terse RDF Triple language): 가장널리 사용되는 인간 친화적 포맷, 중복을 줄이고 가독성을 높인 문법
N-Triples: 가장 단순한 형태, 한줄에 하나의 트리플을 온전한 URI로 표현, 파싱이 매우 빠름
JSON-LD: JSON 기반의 Linked Data 포맷, 웹 개발자에게 친숙하면 API 응답용으로 주로 사용
RDF/XML: 초기 표준 형식, XML의 복잡성으로 인해 현재는 가독성이 좋은 Trutle 등을 선호
어휘의 의미와 상하위 관계를 정의하는 시맨틱 웹의 분류체계
어휘 및 의미정의
단순 데이터 연결을 넘어, Class(개념)와 Property(속성)를 정의하여 데이터가 어떤 의미를 갖는지 기계에게 설명하는 사전역할을 함
분류 체계 (Taxonomy)
subClassOf(하위 클래스)와 subPropertyOf(하위 속성)를 사용하여 개념 간의 계층 구조와 상속 관계를 형성
관계의 제약 조건
속성이 연결돌 수 있는 주어의 타입(Domain)과 목적어의 타입(Range)를 지정하여 논리적 무결성을 보장하고 추론의 근거를 제공

Web Ontology Language, 지식표현을 위한 상위 논리 모델링 계층
Description Logic 기반
RDFS 위에서 동작하며, 서술논리를 기반으로 하여 사물간의 복잡하고 풍부한 관계를 명확하게 정의하고 추론(Resoning)할 수 있는 언어
향상된 표현력
단순 계층 구조를 넘어 집합 연산(교집합, 합집합), 카디널리티(개수 제한), 속성 특성(대칭, 전이, 역관계) 등 정교한 제약조건을 표현할 수 있음
OWL 버전과 Profile
2004년 OWL에 이어 2009년 OWL2가 발표되었으며, 사용 목적과 연산 복잡도에 따라 EL, QL, RL 등 다양한 profile을 제공함

지식 표현을 위한 인공물로서의 온톨로지 개념
"An ontology is an explicit and formal specification of a shared conceptualization of a domain of interest" - Tom Gruber (1993)
지식 표현을 위한 구성 요소

의미모델과 데이터가 결합된 지식표현구조

Node와 Edge 내부에 Key-Value 속성을 저장하는 구조 중심의 모델

Property Graph에 명시적 Label이 추가된 모델




기존 팩트 데이터는 그대로 유지하되, 그 위에 온토로지, 메타데이터, 관계 정의를 포함하는 의미 계층을 덧씌우는 것

시맨틱 레이어는 고정된 한 계층이 아니라, 여러 계층의 집합이며 시간에 따라 성장한다.
1. 유기적 성장 (자동)
2. 인위적 관리 (수동)
아래는 시맨틱레이어의 잘못된 설명이다.
올바른 이해는 아래와 같다.
데이터 마트는 물리적 데이터 복사본이지만, 시맨틱 레이어는 추상화 계층이다. 데이터를 복제하지 않고 의미만 정의한다.



RDF가 적합 (특수한 경우)
RDF 피해야 할 경우

- 기존 DB는 그대로, 위에 의미계층 추가
- 시맨틱 레이어는 성장하고 진화하는 구조
- 대부분의 경우 RDF/트리플 스토어 불필요
- LLM으로 비정형 문서 구조화 가능

본 포스팅은 지그재그 세미나 4회에서 제공된 pdf 발표자료를 기반으로 작성되었다. 원본 자료와 발표자 정보가 궁금하다면, 아래 Reference에 지그재그 hompage 링크를 올려두었으니 참고하길 바란다. 
https://slashpage.com/zigzag/4w67rj24gqx4jm5yq8ep
https://joyhong.tistory.com
https://github.com/LangChain-OpenTutorial/LangChain-OpenTutorial/blob/main/19-Cookbook/03-GraphDB/05-TitanicQASystem.ipynb
SPARQL in 11 minutes (youtube)
https://github.com/gazgiz