Semantic Web/메타데이터/XML/RDF/OWL

이혜윤·2022년 12월 28일
0

시맨틱 웹의 필요성

  • 현재의 웹 검색은 단순히 키워드 매칭 만을 수행하기 때문, 검색 결과가 사용자가 원하는 정보와는 의미적으로 상이한 결과들을 다수 포함
  • 사용자가 원하는 정보와 의미적으로 정확히 일치하는 정보들을 추출하기 위해서는 웹 자원에 대한 정확한 의미 부여 + 선택적으로 획득/통합/가공할 수 있는 온톨로지와 같은 시맨틱 웹 환경 요소들이 필요
  • 필요한 정보만을 효율적으로 추출하기 위해서 웹 정보들 간의 관계와 정보 자원들 사이의 의미적 연관성에 대한 메타 정보와 컴퓨터가 이해할 수 있는 지식 표현 수단이 가능한 시맨틱 웹의 개념 대두
  • 웹 기술 표준화 단체 W3C에서 이와 같은 웹 자원에 대한 의미 표현 기술로 OWL이라는 웹 온톨로지 표현 언어를 발표

시맨틱 웹

  • 기존 웹의 확장으로서 명확한 의미가 부여되어 사람 뿐만 아니라 기계도 정보를 이해할 수 있도록 해주는 기술
  • 사람이 웹 정보에 대해 의미를 파악하고 의미에 따라 필요한 정보를 선택하듯이, 컴퓨터가 웹 정보의 의미를 이해하고 의미에 따라 선택적으로 정보를 획득/통합/가공할 수 있는 웹 환경을 제공
    • 수많은 숫자 가운데 어떤 숫자가 기온을 나타낸 것인지, 날짜를 나타낸 것인지 -> 기계가 인식하기에는 모두 같은 숫자
    • 어느 숫자가 기온인지 기계도 인식하 수 있도록 기온을 표시하는 코드를 삽입 (인공지능 언어)
  • 현재의 인터넷과 같은 분산 환경에서 리소스에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지 형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술
    • 온톨로지 : 정보를 개념화하고 그 개념들간의 관계를 의미적으로 연결하여 표현하는 인공지능 언어의 핵심적 역할


사람이 바라보기에는 어떤 웹 페이지가 가수 IU에 대한 것인지 금방 알아차릴 수 있지만, 기계가 접근했을 때는 명확한 의미를 파악할 수 X

기계가 읽고 처리할 수 있는 언어로 제공된다면 해당 페이지가가 제공하는 정보가 어떤 정보인지 판단할 수 O

  • 여기에서 joyhong 이라는 문자에 하이퍼링크가 걸려있는데 기계가 접근하여 정보를 보면 joyhong을 가리키는 URI가 포함됨
  • 이 URI를 통해 해당 웹페이지에서 그 정보를 가져와보자.
  • IU의 웹페이지에서는 IU의 이름, 생일 등을 알게 되었고, 추가적으로 joyhong이 IU를 알고 있다는 정보를 얻을 수 있다.
  • joyhong의 웹페이지에서는 이름, 관심사, 블로그 주소를 얻을 수 있다.
  • “IU가 아는 사람의 취미가 무엇이지?” 라는 질문에 대해서 “루어낚시”라는 답을 찾을 수 있다.

기존 웹과 시맨틱 웹의 기반 구조 차이

기존의 웹 기반 구조
URL(uniform resource locators) 라는 범용적인 링크를 이용하여 서로를 참조하는 웹 페이지의 분산 네트워크 지원

시맨틱 웹 기반 구조

  • 데이터 차원에서 분산된 웹
  • URI(Uniform Resource Identifiers)로 불리는 범용적 참조를 사용하여 하나의 데이터 항목이 다른 항목을 가리킴
  • 정보가 분산되어도 고유의 정보를 식별할 수 있게 됨

XML(eXtensible Markup Language)

  • 정보를 구조화하고 저장하고 전송하기 위해 만들어진 메타데이터 교환을 위한 수단
  • 확장 가능: 응용 프로그램과 관계 없이 정보를 교환할 수 있는 기능
  • 한계 : 서로 다른 메타데이터 도메인 간의 의미적인 매핑을 수행하는 데 있어서 XML 스키마 만으로는 메타 데이터의 요소와 다른 요소들과의 관계를 기계 가독형으로 표현할 수 없다.

-> 웹 자원에 대한 기술을 위한 RDF 제정


RDF (Resource Description Framework)

시맨틱 웹 기반 구조가 분산된 데이터의 웹을 표현하기 위해 사용하는 데이터 모델
정보를 웹에 분산시키는 데이터 모델로서의 역할

  • 메타데이터: data에 대한 데이터. 어떤 목적을 가지고 만들어진 데이터.
  • URI: 시맨틱 웹 세계에서 사용하는 식별자로서 웹의 세상에서 특정 자원에 대한 고유한 문자열
  • XML: 문서 내의 콘텐츠 구조에 대한 요소 구문 제공 (의미체계 연관 X)
  • RDF : 자원과 자원들 간의 관계를 참조하는 데이터 모델을 표현하는 언어. W3C의 표준으로 RDF/XML, N-Triples, Turtle, RDFa 등으로 표현
  • RDFS: RDF Schema. RDF의 확장으로 RDF 기반 자원의 속성과 클래스를 설명하기 위해 사용. 속성과 클래스의 일반화된 계층 구조에 대한 의미도 표현
  • OWL : 속성과 클래스를 설명하기 위해 더 많은 어휘들을 추가. 클래스들 간의 관계에 대한 어휘, 카털리티, 다양한 속성의 유형, 속성의 특성 등을 추가. 기술논리 기반의 온톨로지 언어.
  • 기술논리(Description Logic): 기본적인 개념을 표현하는 기호와 개념들을 구성하는 구성자를 사용하여 용어적 지식을 다루는 지식표현체계
  • RIF: W3C 규칙 교환 형식. 기계가 실행할 수 있는 웹 규칙을 표현하기 위한 XML 언어
  • SWRL: 규칙과 로직을 표현하기 위해 사용할 수 있는 언어.
  • SPARQL: 시맨틱 웹 데이터 소스를 위한 프로토콜 및 쿼리 언어
  • Logic: 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능. 기술논리 기반의 OWL 추론 vs 규칙 기반의 추론
  • Proof/Trust : 증명은 어떤 정보가 시맨틱 웹 상에 만들어져서 사용될 때 그 정보에 대한 출처가 어디인지를 증명, 신뢰는 출처가 증명된 정보는 신뢰할 수 있다는 것을 보장

  • XML : 전체 웹에서 읽을 수 있도록 표면 구조와 구문을 제공. eXtensible Markup Language
  • RDF : 메타 데이터를 참조하는 표준 수단을 제공. Resource Description Framework
  • OWL : 메타 데이터에 대한 어휘를 제공

RDF의 구성

1) N-Triples

  • 축약되지 않은 완전한 URI 를 사용하여 리소스를 표현
  • 주어부(subject)/술어부(predicate)/목적부(object)
  • 꺾은 화살표 (<,>) 안에 쓰여짐. 하나의 문장이 마칠 때 마침표(.)
  • 트리플은 방향성 그래프(directed graph)로서, 각 트리플은 주어부에서 목적부로 가는 에지(edge). 이 에지 상에 레이어블로서 술어부를 가진다.

2) N3 (Notation 3 RDF)

  • N-Triples로부터 얻은 트리플 표현의 명확성과 qname의 간결성을 결합
  • 같은 주어부를 가진 다른 트리플을 표현할 때는 세미콜론(;)을 사용하여 술어부와 목적부만 기술
  • 같은 주어부와 술어부를 가지고 목적부만 다른 트리플을 표현하기 위해 콤마(,)를 사용하여 표현

3) RDF/XML

  • 많은 웹 기반 구조에서는 정보를 HTML이나 XML로 표현하는 것이 익숙하기 때문에 W3C에서는 RDF/XML 방법을 추천

RDF의 한계

자원의 속성과 자원들 간의 관계를 기술하기 위해 설계되었기 때문에 속성과 클래스의 명확한 정의, 클래스와 클래스 간의 관계, 속성과 속성 간의 관계를 기술하기 위한 방법을 제공하지 X

-> RDF 스키마 제정 (메타데이터의 속성에 관한 정의, 속성에 대한 제어 방법, 클래스 간의 관계 등을 사람과 기계가 동일하게 이해하고 처리할 수 있는 형태를 표현하는 것이 가능하도록 설계)


RDF Schema (RDFS)

어휘(vocabularies): 속성집합으로 자원을 기술하기 위해 각 메타 데이터 형식들에서 정의하고 있는 메타데이터 요소 집합.

  • human-readable & machine-processable 어휘들을 정형화하는 것은 상이한 메타데이터 형식들 간의 어휘 확장과 재사용, 상호 교환을 가능하게 해주는 것이며 이러한 정형화를 위해 RDFS가 필요.
  • 자원의 타입(type) 정보를 통해 클래스를 명시하고, 클래스의 계층 구조, 프로퍼티의 계층 구조 등을 생성
  • domain, range 제약 등을 통해 주어와 목적어에 대한 타입 제약도 정의 가능

OWL (Web Ontology Language)

  • RDF의 어휘 확장
  • RDF / RDF Schema가 표현할 수 없었던 동의 관계, 역관계, Union, Intersction 등의 주요 관계를 표현할 수 있도록 모델링 요소를 확장, 강화할 필요가 있었기 때문
  • 메타 데이터 어휘를 제공.
  • 정보 및 웹 상의 다른 정보와의 관계를 설명하는 데 사용
  • 지식 도메인을 설명하고 해당 사양을 사용하여 도메인에 있는 항목에 대한 주장을 할 수 있음

참고 문헌
<시맨틱 웹에서 온톨로지를 위한 OWL 저작도구>안병규 외 8인
<메타데이터와 온톨로지>
성균관대학교 문헌정보학과 고영만

profile
구르미 누나

0개의 댓글

관련 채용 정보