[CV] Feature Detection and Matching(1) - Feature Point

Yeontachi·2025년 8월 18일

Computer Vision Note

목록 보기

27/47

컴퓨터 비전에서 가장 중요한 문제 중 하나는 서로 다른 이미지들 사이의 대응 관계(coreespondence)를 찾는 것이다. 이를 이미지 매칭(Image Matching)이라 부른다. 예를 들어, 같은 장면을 다른 각도에서 촬영한 두 사진이 있다고 하자. 이때 우리는 두 이미지 속에서 동일한 물체의 동일한 부분이 어디에 위치하는지를 찾아야 한다.

이러한 매칭은 단순히 두 사진을 정렬하는 것을 넘어, 3차원 구조 복원, 객체 인식, 영상 정합(mosaicing), 자율 주행 환경 인지 등 다양한 응용으로 확장된다.

그러나 이미지를 픽셀 단위로 직접 비교하는 것은 비효율적일 뿐만 아니라, 조명 변화나 회전 $\cdot$ 확대 축소 같은 기하학적 변환에 취약하다.

따라서 비전 연구에서는 픽셀 전체를 다루기보다는 특징적이고 안정적인 지점(feature point, interest point)을 추출하고, 그 주변의 정보를 이용해 이미지를 매칭하는 방식을 사용한다.

이러한 특징점은 마치 사람 얼굴의 눈, 코, 입처럼 영상 속에서 다른 영역과 쉽게 구별되며 여러 장면에서도 일관되게 검출될 수 있어야 한다.

결국 이미지 매칭은 크게 두 단계로 나눌 수 있다.

1. 특징 검출(Feature Detection) : 각 이미지에서 구별 가능한 지점을 찾는다.(예: 코너, 블롭, 교차점 등)

2. 특징 매칭(Feature Matching) : 검출된 지점을 벡터로 기술(descriptor)하고, 두 이미지 간의 유사성을 계산하여 대응 관계를 설정한다.

이러한 과정을 통해 단순한 픽셀 비교가 아니라, 영상 간의 의미 있고 강인한 대응을 찾을 수 있게 된다.

Feature Points & Local Features

영상 매칭(Image Matching)을 안정적으로 수행하기 위해서는 단순히 모든 픽셀을 비교하는 대신, 영상 내에 의미 있고 잘 구별되는 지점을 추출하는 것이 필요하다. 이러한 지점을 Feature Point(특징점, 관심점; Interest Point)라 부른다.

이 특징점을 중심으로 주변 영역의 정보를 요약하여 벡터로 표현한 것을 Local Feature(지역 특징)이라 한다.

즉, Feature Point는 "어디를 볼 것인가"를 정해주는 반면, Local Feature는 그 지점을 "어떻게 표현할 것인가"를 정의하는 개념이다.

Local Features 처리 과정

Local Features는 일반적으로 다음 세 단계를 거쳐 정의된다.

1. Detection(검출)

이미지에서 코너(corner), 블롭(blob), 교차점(junction)과 같이 관심점(Interest point)을 찾아낸다.
이 단계에서 추출되는 점들이 Feature Points이다.

2. Description(기술)

검출된 특징점을 중심으로 일정 영역을 고려하여, 그 주변의 패턴이나 구조를 벡터로 표현한다.
이렇게 만들어진 벡터를 Feature Descriptor라고 하며, 서로 다른 이미지에서 비교 가능한 표준화된 표현 방식이다.

3. Matching(매칭)

두 이미지에서 얻어진 Feature Descriptor들을 서로 비교하여, 동일한 물체나 장면에 해당하는 점을 대응 시킨다.
일반적으로 유클리드 거리(Euclidean Distance)나 코사인 유사도(Cosine similarity) 같은 지표를 사용하여 가장 가까운 특징끼리 연결한다.

Properties for Local Features

좋은 Local Feature는 다음과 같은 성질을 가져야 한다.

Repeatability(재현성)
동일한 특징이 서로 다른 이미지에서도 안정적으로 검출될 수 있어야 한다. 예를 들어, 물체가 회전, 확대 $\cdot$ 축소, 조명 변화, 잡음이 있어도 같은 지점을 찾아야 한다.
Saliency(뚜렷함, 구별성)
특징은 주변의 다른 점들과 충분히 구별되는 정보를 가져야 한다.
즉, 평탄한 영역이나 단순한 에지(Edge)는 좋은 특징이 될 수 없고, 코너처럼 고유한 형태가 필요하다.
Compactness and Efficiency(압축성 및 효율성)
전체 픽셀 수에 비해 훨씬 적은 수의 특징점만 추출되므로, 계산량을 줄이고 효율적으로 다룰 수 있어야 한다.
Locality(지역성)
특징은 이미지의 작은 영역을 기반으로 정의되므로, 가림(occlusion)이나 배경의 복잡한 구조에도 강인하다.

Repeatability

이미지 매칭에서 가장 중요한 조건 중 하나는 같은 물체나 장면이 여러 이미지에서 관찰되더라도 동일한 특징점을 반복적으로 찾아낼 수 있는가이다. 이를 재현성(Repeatability)이라고 한다.

예를 들어, 우리가 어떤 산맥을 두 각도에서 촬영했다고 할때, 이상적인 특징점 검출기는 두 이미지 모두에서 산맥의 모서리나 봉우리와 같은 동일한 지점을 찾아내야 한다. 만약 한 이미지에서는 특징점을 검출했는데, 다른 이미지에서는 전혀 검출하지 못한다면 그 점은 매칭할 수 없으므로 쓸모가 없다.

실제 매칭 과정에서 두 이미지를 동시에 보면서 검출하지 않는다.
즉, 각 이미지는 독립적으로 처리되어야 하며, 그 결과로 얻은 특징점들이 서로 대응할 수 있기를 기대한다.

독립적으로 특징점을 찾을 때, 한쪽 이미지는 잡음에 의해 특징점이 사라지거나, 다른 쪽 이미지는 회전 $\cdot$ 축소로 인해 위치가 달라져 특징 검출이 실패할 수 있다.

따라서 특징 검출기는 기하학적 변환(translation, rotation, scaling)이나 조명 변화에도 불변(invariant)하거나, 최소한 강인(robust)해야 한다.

좋은 특징점 검출기는 다음 조건들을 만족해야 한다.

1. Invariant to translation, rotation, and scale(이동, 회전, 크기 불변성)

이미지가 평행 이동, 회전, 확대 $\cdot$ 축소가 되더라도 동일한 특징점을 검출할 수 있어야 한다.

2. Robustness to Transformation(변환 강인성)

원근 변형(Perspective transform)이나 기하학적 왜곡에도 가능한 한 안정적으로 특징 검출이 이루어져야 한다.

3. Robustness to Lighting and Noise(조명 잡음 강인성)

밝기 변화, 그림자, 센서 노이즈 등이 있어도 특징점이 유지되어야 한다.
예: Harris, SIFT는 미분이나 정규화를 통해 조명 변화에 강인한 구조를 가진다.

Distinctiveness

특징점 매칭에서 두 번째로 중요한 조건은 각 특징점이 충분히 뚜렷하고 구별 가능해야 한다는 것이다. 단순히 반복적으로 검출되는 것만으로는 부족하다. 만약 모든 특징점이 비슷한 모양과 값을 가진다면, 서로 다른 점들 사이를 구분할 수 없어서 매칭이 실패한다.

예를 들어, 평평한 벽면이나 균일한 질감(texture) 영역에서는 많은 점들이 비슷하게 검출될 수 있다. 이 경우 어떤 점이 어떤 점에 대응되는지 명확히 알 수 없으므로, 신뢰성 있는 대응 관계를 결정하기 어렵다. 따라서 각 특징점은 주변 영역을 반영하는 고유하고 차별적인 기술자(descriptor)를 가져야 한다.

구별성 있는 특징점은 다음의 성질을 만족해야 한다.

1. Invariance to geometric changes(기하학적 변환 불변성)

이미지가 이동(translation), 회전(rotation), 크기 변화(scale)를 겪어도 같은 특징은 동일한 벡터로 기술되어야 한다.
예: SIFT는 특징점 방향을 정규화해 회전 불변성을 확보하고, 스케일 공간에서 특징을 검출하여 크기 변화에도 대응한다.

2. Invariance to photometric changes(광학적 변환 불변성)

밝기, 조명, 대비 변화에도 특징 벡터가 크게 달라지지 않아야 한다.
예: 정규화(normalization)된 히스토그램 기반 descriptor는 조명 변화에 강인하다.

3. High distinctiveness(높은 구별성)

각 특징점의 descriptor는 충분히 복잡하고 고유해야 한다.
이렇게 해야 서로 다른 점들의 descriptor가 쉽게 구분되고, 진짜 대응 관계(true match)만 선택할 수 있다.

Local Invariant Features

영상 매칭에서 중요한 것은 다양한 변환에도 안정적으로 검출될 수 있는 불변 특징(local invariant features)을 찾는 것이다. 이러한 불변 특징들은 컴퓨터 비전의 여러 응용에서 기본적인 빌딩 블록으로 사용된다.

대표적인 불변 특징 검출기들은 다음과 같다.

Hessian & Harris [Beaudet, 1978], [Harris, 1988]
코너 및 블롭 형태의 특징점을 찾는 대표적인 기법이다.
Laplacian, DoG [Lindeberg, 1998], [Lowe, 1999]
라플라시안과 가우시안 차분(DoG)을 이용해 스케일 불변성을 확보한 검출 방식이다.
Harris-/Hessian-Laplace [Mikolajczyk & Schmid, 2001]
위치 검출에는 Harris/Hessian을, 스케일 선택에는 라플라시안을 결합한 방법이다.
Harris-/Hessian-Affine [Mikolajczyk & Schmid, 2004]
어파인 정규화를 적용하여 어파인 변환에 강인한 특징점을 검출한다.
EBR and IBR [Tuytelaars & Van Gool, 2004]
경계 기반 영역(EBR)과 강도 기반 영역(IBR)을 통해 안정적인 특징 영역을 추출한다.
MSER (Maximally Stable Extremal Regions) [Matas, 2002]
밝기 변화에도 강인한 극값 영역을 안정적으로 검출하는 방법이다.
Salient Regions [Kadir & Brady, 2001]
정보량이 많은 영역을 검출하여 주목할 만한 지역(salient regions)을 특징으로 삼는다.
Others
이후에도 SURF, ORB 등 다양한 검출기가 개발되어 속도, 정확도, 강인성 측면에서 개선을 이어갔다.