Graph-tool 논문5

Sylen·2025년 1월 4일

아래 인용된 논문 (\textit{"Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures"})는 임의(Arbitrary) 유사도 함수를 사용하는 대규모 데이터셋에서 (k)-최근접 이웃 그래프((k)-NNG)를 효율적으로 구성하기 위한 방법을 다루고 있습니다.
본 답변에서는 중학생도 이해할 수 있도록 최대한 평이한 표현으로, 동시에 수식과 원리에 집중해서 정성껏 설명하겠습니다. 답변 순서는 대략 아래와 같습니다:

배경: (k)-최근접 이웃 그래프(K-NNG)란?
왜 (k)-NNG를 효율적으로 구성하는 게 어렵나?
논문의 핵심 아이디어: NN-Descent 알고리즘
알고리즘의 작동 원리와 주요 최적화
실험 및 결과 요약
결론

1. 배경: (k)-최근접 이웃 그래프(K-NNG)란?

(k)-최근접 이웃 그래프((k)-NNG)란, 데이터셋 (V) 안에 있는 각 객체(object) (v)에 대해, “(v)와 가장 유사한(혹은 거리가 가장 가까운) (k)개 이웃”을 연결한 그래프입니다.
예시) 영화 추천 시스템에서, “유저 (u)와 비슷한 취향(평점패턴)이 가장 비슷한 유저들을 (k)명 연결” → 그 그래프를 이용해 협업필터링을 수행함.
이미지나 텍스트 등, 임의의 유사도 함수(예: 코사인 유사도, 자카드 유사도, 임의의 distance metric 등)를 적용해, 각 객체의 (k)-최근접 이웃을 구해야 할 때가 많음.

이 문제의 난점

단순한 브루트포스: 모든 쌍 ((u, v))에 대해 유사도를 구하면 (O(n^2)) 시간이 듬. → 대규모 데이터((n \gg 10^6))일 때 매우 비효율적.
기존의 고전적 기법(예: 트리 인덱스, LSH 등)은 특정 거리 함수(유클리디안 등)에 최적화되어 있거나, 고차원일 때 성능이 급격히 떨어짐.

2. 왜 (k)-NNG를 효율적으로 구성하는 게 어렵나?

(k)-NNG를 만들려면, 각 노드(객체)가 “자신에게 가장 가까운(유사도 높은) (k)개 이웃”을 알아야 함.
이웃 탐색을 1) 모든 노드마다 개별로 하면, 결국 (n)번의 (k)-최근접 이웃 탐색을 해야 해서 여전히 비싸다.
기존에 제안된 방법들도,
- (1) 특정 거리((\ell_2), 혹은 특별한 해시)만 지원하거나,
- (2) 글로벌 인덱스를 만들어야 해서 분산/대규모 환경에서 힘들거나,
- (3) 정확성을 높이려면 여전히 연산이 많아지는 등, 문제점이 존재함.

3. 논문의 핵심 아이디어: NN-Descent 알고리즘

“(\textbf{NN-Descent})라는 간단하지만 강력한 로컬 탐색 기반 알고리즘을 통해, 임의 유사도 함수에 대해 (\textbf{근사}) (k)-NNG를 빠르게 구성할 수 있다.”

아이디어 개요

만약, 내 이웃들의 이웃(“neighbor of neighbor”)을 살펴보면, 그중에 나와 가깝거나 더 나은 이웃이 숨어있을 수 있다는 발상.
이를 반복적(iterative)으로 적용하면, 점점 정확한 (k)-NN 목록을 ‘내’ 이웃에 업데이트할 수 있다.
다만, 모든 쌍을 비교하지 않고, “현재 내가 가지고 있는 이웃들의 이웃”만 검사하므로, 실제로는 전체의 일부만 비교하게 되어 (대규모 데이터에서도) 전체 연산이 크게 준다.

용어

(B[v]): 현재 알고리즘이 추정한(approximate) “노드 (v)의 (k)-최근접 이웃 리스트”
(R[v]): “reverse” 개념. 즉, “(v)가 다른 노드 (u)의 이웃 리스트 (B[u]) 안에 들어 있다”면, (v \in R[u]).
- NN-Descent에서는 (B[v])와 (R[v]) 둘 다 함께 갱신 → 양방향의 ‘이웃 후보’들을 보고 업데이트.

NN-Descent 알고리즘 (간단 버전)

초기화: 각 노드 (v)에 대해, 무작위로 (k)개의 후보 이웃을 샘플링하여 (B[v])를 초기화.
반복:
1. (R[v])를 구축(“(v)가 누구의 이웃 후보인지” 역추적).
2. 각 노드 (v)는 “자신의 이웃((B[v]))의 이웃들((B[u]) for (u \in B[v]))”을 확인하며, 더 가까운(혹은 더 높은 유사도인) 노드가 있다면 (B[v])를 갱신.
3. 갱신된 양(= 업데이트 횟수)이 없으면 수렴 → 종료.

이 과정을 반복하면, 점점더 “진짜 (k)-최근접 이웃”에 근접한 해를 얻을 수 있음.

4. 알고리즘의 작동 원리와 주요 최적화

(\textbf{작동 원리})는 직관적으로, “(\textbf{내 친구(이웃)의 친구(이웃)})도 내 친구가 될 가능성이 높다”는 현상을 이용.

실제로, “성장 제한된(growth restricted) 메트릭 공간”이라는 가정에서, 한 번의 이웃-이웃 탐색으로 “탐색 반경”이 확 줄어드는 것을 수학적으로 보임(논문 내 해석).

(1) Local Join 최적화

“각 노드 (v)”가 (\textbf{직접}) “(B[v]) 내 노드들끼리의 이웃-이웃 관계”를 싹 비교하는 “local join” 방식을 쓰면, 메모리 locality가 좋아져 계산이 더 빨라짐.

(2) Incremental Search 최적화

이미 비교한 쌍은 재비교할 필요 없음.
“이번에 새로 들어온 후보들(new flag)”만 집중적으로 서로 비교해 업데이트.

(3) Sampling(샘플링)

만약 (k)가 클 때, 매번 local join 시, (k^2)번 비교 → 여전히 비쌀 수 있음.
따라서, 이웃 후보 중 일부(샘플)만 골라서 비교해도, 실제로 상당히 좋은 근사 정확도를 얻을 수 있음(실험으로 확인).

(4) Early Termination (조기 종료)

반복하며, 각 이터레이션에서의 업데이트 횟수가 적어지면(전체 (\leq \delta K n)), 알고리즘 종료 → 실질적 정확도 손실은 크지 않으면서 연산 시간을 줄임.

5. 실험 및 결과 요약

다양한 데이터셋(이미지 특징, 오디오 특징, 텍스트, EMD 등 임의 유사도)을 대상으로 테스트.
구현이 단순(200줄 이하 C++ 코드)하지만, 실제로 “(n)이 백만 개 이상”인 환경에서도, 각 노드가 전체 (\approx 1\%) 미만만 비교하면서도 90% 이상의 recall 달성.
기존의 다른 기법(예: LSH, Recursive Lanczos Bisection)과 비교:
- LSH: hash table 많이 필요하고, 정확도를 높이려면 사실상 더 느려짐.
- RLB: 특정 거리((\ell_2))에 특화, 병렬화 쉽지 않음. NN-Descent가 (실험 결과) 더 빠르고 정확함.

알고리즘 복잡도 & 확장성

실제로, (N)이 클수록, “비교율”((#\ \text{similarity computations}/\bigl(N(N-1)/2\bigr))”)이 (O(N^{1.14})) 수준으로 나타남 → (N^2) 전수 탐색보다 훨씬 낫다.
분산(MapReduce)환경에서도, 각 노드의 정보가 로컬하게 쓰여서 쉽게 병렬화 가능.

6. 결론

(\textbf{NN-Descent}) 알고리즘은 임의 유사도 함수(메트릭)에서 (\textbf{근사}) (k)-최근접 이웃 그래프를 매우 효율적으로 구성하는 방법을 제안함.
“내 이웃의 이웃” 탐색을 iterative/local join으로 수행 → 충분한 정확도를 획득.
실제 대규모 실험에서, (\textbf{90\%이상 recall}) 얻으면서, 전수(brute force) 대비 획기적 연산량 절감 입증.
구현도 간단, 메모리 overhead 작고, 병렬화/분산처리에 적합 → 대규모 real-world 애플리케이션(추천, 유사도 검색, 그래프 분석 등)에 활용 가치 높음.

[
\boxed{
\begin{aligned}
&\text{(핵심 포인트)}\
&\quad \bullet\; \text{임의의 유사도 함수(메트릭 등)에 적용 가능.}\
&\quad \bullet\; \text{이웃-이웃 탐색 + 반복적(Iterative)으로 근사 k-NN 갱신.}\
&\quad \bullet\; \text{다양한 최적화(Incremental, Sampling, Local Join)로 연산량 대폭 절감.}\
&\quad \bullet\; \text{크게 복잡한 자료구조 필요없이, 분산환경에서도 스케일업 쉬움.}
\end{aligned}
}
]

부록: 파이썬 코드 샘플 (개념 예시)

아래는 간단한(매우 축소된) NN-Descent 알고리즘을 파이썬으로 흉내 내는 예시입니다. (실제 paper에서처럼 효율 최적화는 많이 생략했음을 유의하세요.)

import numpy as np
import random

def similarity(x, y):
    """ 예시: 유클리드 거리 기반 유사도(작을수록 유사한 것으로) """
    # 여기서는 간단히 음(-) 거리로 유사도를 정의
    dist = np.linalg.norm(x - y)  # 유클리드 거리
    return -dist  # 음수를 취해 거리 작을수록 값이 커지도록

def nn_descent(data, K=10, max_iter=10):
    """
    data: shape (n, dim) numpy array
    K:    number of neighbors
    """
    n = data.shape[0]
    
    # (1) 초기화: 무작위로 K개의 후보 이웃 선정
    # neighbors[i] = [(idx, sim), ... ] (길이 K)
    neighbors = []
    for i in range(n):
        # K개의 다른 점을 랜덤 선택
        rand_idx = random.sample(range(n), K+1)  # 혹시 i가 포함되면 빼줄 예정
        rand_idx = [x for x in rand_idx if x != i]
        rand_idx = rand_idx[:K]  # K개만
        temp_list = []
        for j in rand_idx:
            sim_val = similarity(data[i], data[j])
            temp_list.append((j, sim_val))
        # 유사도 큰 순으로 정렬(파이썬은 정렬시 기본 오름차순 -> sim_val이 큰게 앞으로)
        temp_list.sort(key=lambda x: x[1], reverse=True)
        neighbors.append(temp_list)
    
    # (2) Iteration
    for iteration in range(max_iter):
        changed = 0
        # R[v] 계산은 구현상 skip, 대신 "이웃의 이웃"을 직접 탐색
        for i in range(n):
            # (a) i의 이웃 후보들
            neigh_i = neighbors[i]
            
            # (b) "이웃의 이웃" 후보들을 모아서
            candidates = set()
            for (u_idx, sim_val) in neigh_i:
                # 이웃 u의 이웃목록에 있는 노드들을 candidates에 추가
                for (z_idx, _) in neighbors[u_idx]:
                    if z_idx != i:
                        candidates.add(z_idx)
            
            # (c) i와 각 candidate 간 유사도 비교 -> 만약 top-K 갱신가능하면 갱신
            # neighbors[i]는 항상 유사도 내림차순 정렬 상태를 유지(가장 뒤가 최소)
            min_sim_in_list = neighbors[i][-1][1]  # 리스트 내 최소유사도
            for c_idx in candidates:
                sim_c = similarity(data[i], data[c_idx])
                if sim_c > min_sim_in_list:
                    # 대체
                    neighbors[i].pop()  # 꼴찌 제거
                    neighbors[i].append((c_idx, sim_c))
                    neighbors[i].sort(key=lambda x: x[1], reverse=True)
                    min_sim_in_list = neighbors[i][-1][1]
                    changed += 1
        
        if changed == 0:
            print(f"Iteration {iteration}, no changes -> stop.")
            break
    
    return neighbors

# 예시 실행
if __name__=="__main__":
    np.random.seed(0)
    random.seed(0)
    data = np.random.random((100, 5))  # 100개, 차원=5
    result = nn_descent(data, K=5, max_iter=10)
    # result[i] => i번 데이터의 근사 이웃 5개
    # ...

위 코드는 개념 증명용으로, 실제 논문 구현에서 제시한 Sampling, Incremental, Local Join 최적화는 반영되어 있지 않습니다. 그럼에도, 전체적인 작동 흐름은 비슷합니다:

초기화: 임의 후보선정
반복: “이웃의 이웃”을 탐색 → 더 나은 이웃 발견 시 갱신 → 업데이트가 없으면 종료

실제로 대규모 데이터(수십만~수백만)엔 C++/병렬/분산 구현이 필수겠지만, 기본 아이디어는 위와 유사합니다.

마무리

NN-Descent는 “단순 로컬 탐색” 아이디어로도 큰 효과를 내는 기법으로, 임의의 유사도 함수(코사인, 자카드, EMD 등)에 적용 가능.
중/저 차원((\sim 10\sim 50))의 대규모 데이터에서 (\textbf{근사 k-NNG})를 빠르게 얻을 수 있어, 협업필터링, 시각적 최근접 탐색, 매니폴드 학습 등 다양한 응용에 폭넓게 쓰임.

끝!

Sylen

AI가 재밌는 걸

이전 포스트

Graph-tool 11

다음 포스트