Knowledge Graph 위의 머신러닝

Tasker_Jang·2026년 5월 17일
post-thumbnail

이번 글의 thesis는 다음과 같다. 그래프 위의 ML은 전통적 ML의 i.i.d. 가정을 깨뜨리며, 그 깨짐이야말로 그래프 기반 접근의 가치가 발생하는 지점이다. 노드를 독립적 데이터 포인트로 다루는 것은 그래프에 인코딩된 관계 정보를 버리는 것과 같다. 따라서 KG 위의 ML은 단순히 "그래프 데이터에 ML을 적용하는 것"이 아니라, 연결성을 1급 시민으로 다루는 새로운 종류의 학습 문제 설정이다.

또한 이 챕터의 실험에서 얻을 핵심 교훈은 다음과 같다. 알고리즘 선택보다 feature engineering이 더 중요하며, 도메인 지식(특히 homophily 같은 그래프 동역학에 대한 이해)이 generic한 접근보다 효과적이다.

1. 왜 그래프 위에서 ML을 수행하는가

지능형 시스템 — 특히 IAS(Intelligent Advisory System) — 의 핵심 가치는 사용자가 스스로 추출할 수 없는 인사이트를 제공하는 "advising"에 있다. 이 advising의 거의 모든 형태는 그래프의 지식을 입력으로 받는 ML 알고리즘을 요구한다.

KG 위에서 ML을 수행해야 하는 이유는 세 가지로 압축된다.

이유설명
Universal data representation광범위한 시스템의 다양한 데이터를 그래프로 변환 가능
소수의 계산 작업으로 환원수많은 문제가 node classification, link prediction 등 제한된 작업으로 환원됨
i.i.d. 가정의 회피실세계 데이터의 본질적 연결성을 그대로 모델링 가능

이상 탐지(anomalous node detection)와 환자에게 약물 추천은 모두 node classification 문제로 요약될 수 있다. 추천 시스템과 상호작용 식별은 본질적으로 relationship prediction 문제다. 표면적으로 매우 다른 도메인의 문제들이 소수의 그래프 계산 작업으로 환원된다는 점이 KG 기반 ML의 일반화 능력을 보여준다.

특히 세 번째 이유가 결정적이다. 전통적 ML 알고리즘은 데이터 항목이 independent and identically distributed(i.i.d.)라고 가정한다. 그러나 많은 실세계 use case에서 데이터 항목들은 본질적으로 연결되어 있으며, 이 관계를 무시하면 불완전하거나 잘못된 결과로 이어진다. 관계를 자연스럽게 저장하는 그래프 형태로 데이터를 저장하고 그 위에 계산 작업을 적용하는 것이 더 나은 결과를 제공할 수 있다.

2. GNN-LLM 통합: IAS의 새로운 형태

GNN과 LLM의 결합은 강력한 IAS를 만들어낸다. GNN의 복잡한 구조적 패턴 탐지 능력과 LLM의 자연어 이해·생성 능력이 결합되기 때문이다.

의료 도메인 예시는 이 통합의 가치를 잘 보여준다. GNN은 환자 유사성 네트워크와 생물학적 pathway 그래프를 처리하고, LLM은 의학 문헌과 임상 가이드라인을 종합하여 명확한 의학 용어로 치료 근거를 설명한다. 이 GNN-LLM 통합은 시스템이 복잡한 패턴을 식별하고 그것을 context-appropriate language로 설명할 수 있게 해주어, 인사이트를 end user에게 접근 가능하고 actionable한 형태로 만든다.

ML은 본질적으로 problem-driven 분야다. 따라서 KG 위의 ML도 "어떤 알고리즘이 좋은가"가 아니라 "어떤 문제를 풀고 있는가"에서 출발해야 한다.

3. ML Task의 분류: 무엇을 풀고 있는가

KG 위의 ML 작업은 두 가지 큰 카테고리로 나뉜다.

Node-focused tasks는 전체 데이터셋이 하나의 그래프로 표현되며, 노드와 관계가 데이터 포인트가 된다. Graph-focused tasks는 데이터가 여러 그래프의 집합으로 구성되며, 각 데이터 포인트가 그래프 전체다.

이 구분은 학습 패러다임의 차이로 직결된다. Node-focused 작업에서는 동일 그래프 내 노드들이 서로 영향을 주고받기 때문에 진정한 의미의 i.i.d. 데이터셋이 성립하지 않는다. 반면 Graph-focused 작업에서는 각 그래프가 i.i.d. 데이터 포인트로 작동한다.

항목Node-focusedGraph-focused
데이터 구조단일 큰 그래프여러 독립 그래프 집합
데이터 포인트노드 또는 관계그래프 전체
i.i.d. 성립깨짐성립 (그래프 간)
대표 학습 유형semisupervised, unsupervisedsupervised, unsupervised
대표 도메인소셜 네트워크, 추천 시스템분자 분류, 화합물 분석

4. Node Classification: i.i.d. 가정의 붕괴

Node classification은 첫눈에는 표준 supervised classification의 직관적 변형처럼 보이지만, 결정적 차이가 있다. 그래프의 노드들은 i.i.d.가 아니다. Node classification은 이 i.i.d. 가정을 산산조각낸다(shatters). i.i.d. 데이터 포인트의 집합을 모델링하는 대신, 노드들의 상호연결된 네트워크를 모델링한다.

i.i.d. 가정을 깨는 3가지 그래프 패턴

다양한 그래프 유형은 i.i.d. 가정에 도전하는 다양한 관계 패턴을 보인다.

패턴정의도메인 예시
Homophily유사한 노드끼리 연결되는 경향소셜 네트워크 (관심사, 행동 공유)
Structural Equivalence유사한 이웃 구조 → 유사한 기능단백질 상호작용 (기능적 유사성)
Heterophily서로 다른 특성의 노드끼리 연결되는 경향포식자-피식자, 매수자-매도자

소셜 네트워크에서 homophily는 이 상호연결성을 잘 보여준다. 노드들은 관계를 통해 서로 영향을 주고받으며, 이웃과 공유된 관심사·속성·행동을 보인다. 이 i.i.d. 가정의 위배는 효과적인 모델이 예측을 할 때 노드 features와 그들의 네트워크 관계 양쪽 모두를 고려해야 한다는 것을 의미한다.

단백질 상호작용 네트워크에서는 structural equivalence가 결정적이다 — 유사한 이웃 구조를 가진 노드들은 유사한 기능적 속성을 공유하는 경향이 있다. Heterophily는 또 다른 패턴으로, 노드들이 다른 특성을 가진 노드와 연결되는 것을 선호하는 경우다. 이 모든 패턴은 노드를 독립적 데이터 포인트로 다루는 것이 그래프에 인코딩된 풍부한 관계 정보를 포착하지 못함을 보여준다.

Semisupervised의 본질

많은 연구자들은 node classification이 semisupervised라는 데 동의한다. 그 이유는 node classification 모델을 학습할 때 일반적으로 모든 unlabeled(예: test) 노드를 포함한 전체 그래프에 접근할 수 있기 때문이다. 우리에게 없는 것은 오직 test 노드의 라벨뿐이다. test 노드에 대한 정보(예: 그래프 내 그들의 이웃에 대한 지식)는 학습 중에도 모델 개선에 사용될 수 있다.

이는 unlabeled 데이터 포인트가 학습 중에 관찰되지 않는 일반적 supervised 설정과 다르다. 그래프 위의 ML 작업이 고전적 카테고리에 쉽게 들어맞지 않는 이유가 바로 이 지점이다.

Link prediction은 그래프 기반 ML의 기본 작업으로, 노드 간의 잠재적 미래 연결을 식별한다. 많은 실세계 응용에서 그래프는 누락된 edge로 인해 불완전하다. 연결이 존재하지만 관찰되거나 기록되지 않은 경우도 있고, 어떤 경우에는 네트워크의 핵심 행위자에 의해 의도적으로 숨겨지기도 한다. 또한 많은 그래프는 본질적으로 진화한다.

용어 구분이 필요하다.

용어정의
Link Prediction두 노드 간 연결의 존재 여부 예측 (관계 유형 무관)
Relationship Prediction연결의 존재 + 관계 유형까지 예측

이 semisupervised 특성은 그래프 구조의 알려진 패턴과 노드 속성을 함께 사용하여 노드 간의 누락되거나 미래에 발생할 연결을 추론할 수 있게 해준다.

Community Detection

연구자 협업 네트워크를 검토할 때, 모든 사람 간에 협업 확률이 동일한 dense "hairball"을 관찰하기는 어렵다. 그래프는 연구 분야, 소속 기관, 지리적 요소 같은 요인에 따라 그룹화된 별개의 클러스터들로 분할되어 있을 가능성이 높다. 같은 대학에서 두 연구자가 협업할 성향은 멀리 떨어진 동료들의 그것보다 높다.

Community detection은 네트워크의 토폴로지와 관계만 사용하여 그래프의 잠재적 그룹 구조를 발견한다. 가장 강력한 응용 중 하나는 graph description and summarization이다. 이 기능은 직접 시각화를 거부하거나(defy direct visualization) 포괄적 수동 분석이 불가능한 대규모 그래프를 다룰 때 특히 가치 있다.

Graph Clustering vs Traditional Clustering

전통적 클러스터링과 graph clustering의 결정적 차이는 다음과 같다.

항목Traditional ClusteringGraph Clustering
입력 데이터벡터 공간의 독립 데이터 포인트상호연결된 그래프
거리 정의유클리드 거리토폴로지 기반 (경로, 이웃)
대표 알고리즘K-means, DBSCANLouvain, LPA
클러스터 수 명시K-means: 필요 / DBSCAN: 불필요일반적으로 불필요
라벨 요구unsupervisedunsupervised

전통적 클러스터링 알고리즘은 벡터 공간의 독립 데이터 포인트와 작동하는 반면, graph clustering은 노드 간의 관계가 그룹 멤버십 결정에 결정적인 상호연결된 데이터를 구체적으로 처리한다.

6. Graph Classification: i.i.d.가 돌아오는 곳

Node classification이 단일 그래프 내 개별 노드의 라벨을 예측하는 반면, graph classification은 각각이 완전한 샘플을 나타내는 여러 독립 그래프를 포함한 데이터셋을 다룬다. Graph classification에서 각 그래프는 자신의 라벨을 가진 i.i.d. 데이터 포인트로 작동한다.

이 작업의 목표는 라벨링된 그래프의 학습 세트를 사용하여 전체 그래프에서 그것의 연관 라벨로 가는 매핑을 학습하는 것이다. 대표적인 도메인은 분자 분류(독성 여부), 화합물의 생물학적 활성 예측, 단백질 구조 분류 등이다.

graph-level 작업의 주요 도전은 각 그래프의 내부 구조와 그 구성 요소의 속성 모두를 효과적으로 포착하는 features를 개발하는 것이다. 같은 분자식을 가진 두 화합물도 원자 배열에 따라 완전히 다른 특성을 보일 수 있으므로, feature는 원자 수준 속성과 그래프 토폴로지를 동시에 인코딩해야 한다.

7. 두 가지 구현 접근법

KG 위의 ML 작업을 구현하는 방법은 크게 두 가지 접근으로 나뉜다.

접근동작 방식장점단점
Collective Classification그래프 구조를 직접 처리, 노드 features와 이웃 관계를 동시 고려그래프 정보를 손실 없이 활용알고리즘 선택의 범위 제한
Feature Engineering그래프 구조를 feature vector로 변환 후 표준 ML전체 ML 생태계 활용 가능 (deep learning 포함)적절한 feature 정의가 핵심 과제

두 번째 접근은 그래프 문제를 전통적 ML 작업으로 변환한다. 이 feature engineering 단계는 현대 deep learning 기법을 포함한 기존 ML 알고리즘의 전체 생태계를 활용할 수 있게 해준다. 주요 도전은 노드, edge, 전체 그래프 구조의 본질적 특성을 포착하는 적절한 features를 정의하는 것으로 이동한다.

GNN의 위치

GNN은 두 접근의 경계에 위치한다고 볼 수 있다. GNN은 그래프 구조를 직접 처리하면서도, 학습된 임베딩은 다운스트림 ML 작업에 그대로 활용 가능한 벡터 표현이다. GNN은 구조적 패턴과 노드 속성 모두를 포착하는 데 탁월하여, 불완전한 KG에 특히 가치 있다. GNN은 그래프 지식을 다운스트림 ML 작업에 직접 이익이 되는 방식으로 인코딩하는 의미 있는 vector embedding을 생성한다.

8. Featurization: 일관성이 결정적이다

Feature engineering 접근에서 가장 중요한 운영 원칙은 다음과 같다.

학습 중에 사용된 featurization 프로세스는 예측을 할 때 사용된 것과 동일해야 한다. 그렇지 않으면 예측 단계가 올바르게 작동하지 않는다.

이 일관성이 깨지면 어떤 정교한 모델도 의미를 잃는다. featurization 프로세스는 각 노드를 벡터 표현으로 변환한다. 필요한 모든 것 — 노드 속성, 모든 레벨의 이웃, 전체 그래프 — 을 입력으로 받을 수 있다.

Node2Vec: GNN 이전의 표현 학습

GNN의 등장 이전에 Node2Vec은 순수하게 네트워크 구조에 기반하여 노드 임베딩을 계산하는 autonomous representation learning을 위한 prominent technique이었다. random walk를 통해 노드 시퀀스를 생성하고 word embedding 기법을 차용하여 임베딩을 학습하는 방식으로, KG의 구조 정보를 벡터화하는 표준적 접근 중 하나로 남아 있다.

Feature Standardization의 필요성

Feature standardization은 서로 다른 scale에서 작동하는 여러 노드 features와 작업할 때 필수적이다. StandardScaler를 사용하여 모든 features를 zero mean, unit variance로 변환함으로써, 각 feature가 원래의 scale과 관계없이 모델의 결정에 비례적으로 기여하도록 보장한다.

ML 알고리즘은 종종 데이터 포인트 간의 유클리드 거리 계산에 의존한다. 적절한 스케일링 없이는 큰 수치 범위의 features가 그 실제 중요성과 관계없이 이 계산을 지배하게 된다. 이는 모델이 features를 그 예측 능력 때문이 아니라 단지 scale 때문에 과도하게 민감해지면서, 편향된 예측과 모델 정확도 감소로 이어질 수 있다.

관계(노드 쌍)를 벡터로 변환할 때 흔히 사용되는 연산자들이 있다.

연산자정의직관
Hadamarduvu \odot v (원소별 곱)공통 활성 차원 강조
Average(u+v)/2(u + v) / 2평균적 특성
L1$u - v
L2(uv)2(u - v)^2제곱 차이
Concatenation[u;v][u; v]정보 손실 최소화, 차원 증가

선택은 도메인과 다운스트림 모델에 따라 달라지지만, 가장 흔한 선택은 Hadamard로, 두 노드 임베딩이 같은 차원에서 함께 활성화될 때 그 차원을 강조한다.

9. 실험에서 얻은 핵심 교훈

이 챕터의 실험은 Karate Club 데이터셋 위에서 두 가지 단순한 node classification 시도를 수행한다.

시도 1: Node degree만을 feature로 사용한 Logistic Regression

Logistic regression은 이름에도 불구하고 binary prediction 작업에 탁월한 분류 알고리즘이다. 노드가 특정 클래스에 속할 확률을 추정하며, features의 선형 조합을 logistic function을 사용하여 0과 1 사이의 확률로 변환한다.

두 차례 실행 결과는 비교적 poor하고 inconsistent한 성능을 보였다. logistic regression이 잘 확립되고 검증된 알고리즘임을 고려할 때, 이 불안정성은 한계가 분류 방법이 아니라 feature engineering 접근에 있음을 시사한다. 결과의 high variance는 degree에만 기반한 단순한 노드 표현이 신뢰할 만한 node classification에 필요한 복잡한 네트워크 패턴을 포착하지 못함을 보여준다.

시도 2: Homophily를 활용한 풍부한 표현

총 연결 수만 세는 node degree 대신, 이 연결들의 social context를 고려하여 더 풍부한 노드 표현을 만들 수 있다. 이 접근은 노드의 그룹 멤버십이 그 이웃의 그룹 소속에 의해 영향을 받을 가능성이 높다고 가정함으로써 homophily를 활용한다.

이 단순한 변화 — degree에서 이웃 그룹 분포로 — 가 성능을 결정적으로 개선한다. 이는 다음 세 가지 원칙으로 일반화된다.

원칙내용
Feature engineering is critical노드와 관계를 표현하는 방식이 그래프 기반 ML 작업의 성공에 근본적으로 영향을 미친다. 도메인 정보가 반영된 features가 degree centrality 같은 단순 지표보다 종종 더 우수한 성능을 보인다
Autonomous embeddings require careful tuningNode2Vec 같은 방법들은 강력하지만 최적 결과를 보장하지 않는다. 지나치게 동질적인 노드 표현이 생성되는 것을 피하기 위해 파라미터가 사려 깊게 구성되어야 한다
Domain understanding mattershomophily 같은 네트워크 속성과 그래프 동역학에 대한 지식이 generic 접근보다 종종 더 효과적인 feature engineering 전략을 안내한다

이 세 원칙은 그래프 ML 프로젝트의 우선순위를 명확히 한다. 더 정교한 모델을 찾기 전에 feature engineering을 점검해야 하며, autonomous embedding은 만능 해결책이 아니라 신중한 튜닝이 필요한 도구이고, 도메인 지식은 마지막에 추가하는 양념이 아니라 처음부터 feature 설계를 안내해야 한다.

10. Graph Clustering의 특수성: 학습 단계가 없다

다른 ML 작업과 비교했을 때 graph clustering은 독특한 위치에 있다.

항목일반적 MLGraph Clustering
입력 변환feature vector 필요그래프 자체가 입력
학습 단계있음없음
라벨부분 또는 전체불필요 (unsupervised)
출력 형태모델 (파라미터)community 할당

Graph clustering의 경우 입력은 전체 그래프(또는 서브그래프)이며, 알고리즘은 노드와 관계를 사용하여 community를 추출한다. 표현 변환 요구사항이 없다. 전체 그래프가 입력으로 제공되며, 알고리즘이 노드와 관계와 직접 상호작용한다. 학습 단계가 없다. 이 작업은 unsupervised 접근을 따른다.

대표적 알고리즘인 LPA(Label Propagation Algorithm)는 네트워크에서 community를 탐지하는 빠른 방법이다. 네트워크 전반에 라벨을 전파한다. 다만 LPA는 무작위성으로 인해 일관된 출력을 보장하지 않는다. 따라서 동일한 네트워크에서 여러 번 실행하면 약간 다른 community가 생성될 수 있다.

11. 정리

이 챕터의 핵심은 다음과 같이 압축된다.

  • 그래프 위의 ML은 상호연결된 데이터를 자연스럽게 다루고, 보편적 데이터 표현을 제공하며, 제한된 계산 작업의 집합을 통해 복잡한 문제의 모델링을 가능하게 한다.
  • i.i.d. 데이터 포인트를 가정하는 전통적 ML과 달리, 그래프 기반 접근은 노드 간의 연결과 의존성을 활용하여 실세계 관계와 패턴을 더 잘 반영한다.
  • 그래프 기반 ML의 성공은 종종 자동화된 feature 학습, 도메인 지식 통합, 그리고 당면 작업에 적절한 알고리즘 선택 사이의 올바른 균형을 찾는 것에 달려 있다.

ML 작업은 두 카테고리 — node-focused와 graph-focused — 로 나뉘며, 구현은 두 접근 — collective classification과 feature engineering — 으로 나뉜다. 실험적 교훈은 명확하다. feature engineering이 알고리즘 선택보다 종종 더 중요하며, 도메인 지식은 generic 접근보다 효과적이다.

결론: 그래프 위의 ML은 i.i.d. 가정을 깨는 것에서 출발하며, 그 깨짐을 어떻게 표현하느냐가 모델의 성패를 결정한다.


참고 자료

  • Knowledge Graphs and LLMs in Action. Manning, 2024 — Chapter 9: Machine Learning on Knowledge Graphs: A Primer Approach.
profile
ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨

0개의 댓글