컴퓨터 비전에서 가장 중요한 문제 중 하나는 서로 다른 이미지들 사이의 대응 관계(coreespondence)를 찾는 것이다. 이를 이미지 매칭(Image Matching)이라 부른다. 예를 들어, 같은 장면을 다른 각도에서 촬영한 두 사진이 있다고 하자. 이때 우리는 두 이미지 속에서 동일한 물체의 동일한 부분이 어디에 위치하는지를 찾아야 한다.

이러한 매칭은 단순히 두 사진을 정렬하는 것을 넘어, 3차원 구조 복원, 객체 인식, 영상 정합(mosaicing), 자율 주행 환경 인지 등 다양한 응용으로 확장된다.
그러나 이미지를 픽셀 단위로 직접 비교하는 것은 비효율적일 뿐만 아니라, 조명 변화나 회전확대 축소 같은 기하학적 변환에 취약하다.
따라서 비전 연구에서는 픽셀 전체를 다루기보다는 특징적이고 안정적인 지점(feature point, interest point)을 추출하고, 그 주변의 정보를 이용해 이미지를 매칭하는 방식을 사용한다.
이러한 특징점은 마치 사람 얼굴의 눈, 코, 입처럼 영상 속에서 다른 영역과 쉽게 구별되며 여러 장면에서도 일관되게 검출될 수 있어야 한다.
결국 이미지 매칭은 크게 두 단계로 나눌 수 있다.
1. 특징 검출(Feature Detection) : 각 이미지에서 구별 가능한 지점을 찾는다.(예: 코너, 블롭, 교차점 등)
2. 특징 매칭(Feature Matching) : 검출된 지점을 벡터로 기술(descriptor)하고, 두 이미지 간의 유사성을 계산하여 대응 관계를 설정한다.
이러한 과정을 통해 단순한 픽셀 비교가 아니라, 영상 간의 의미 있고 강인한 대응을 찾을 수 있게 된다.
영상 매칭(Image Matching)을 안정적으로 수행하기 위해서는 단순히 모든 픽셀을 비교하는 대신, 영상 내에 의미 있고 잘 구별되는 지점을 추출하는 것이 필요하다. 이러한 지점을 Feature Point(특징점, 관심점; Interest Point)라 부른다.

이 특징점을 중심으로 주변 영역의 정보를 요약하여 벡터로 표현한 것을 Local Feature(지역 특징)이라 한다.
즉, Feature Point는 "어디를 볼 것인가"를 정해주는 반면, Local Feature는 그 지점을 "어떻게 표현할 것인가"를 정의하는 개념이다.
Local Features는 일반적으로 다음 세 단계를 거쳐 정의된다.
1. Detection(검출)

2. Description(기술)
검출된 특징점을 중심으로 일정 영역을 고려하여, 그 주변의 패턴이나 구조를 벡터로 표현한다.
이렇게 만들어진 벡터를 Feature Descriptor라고 하며, 서로 다른 이미지에서 비교 가능한 표준화된 표현 방식이다.

3. Matching(매칭)

좋은 Local Feature는 다음과 같은 성질을 가져야 한다.
Repeatability(재현성)
동일한 특징이 서로 다른 이미지에서도 안정적으로 검출될 수 있어야 한다. 예를 들어, 물체가 회전, 확대축소, 조명 변화, 잡음이 있어도 같은 지점을 찾아야 한다.
Saliency(뚜렷함, 구별성)
특징은 주변의 다른 점들과 충분히 구별되는 정보를 가져야 한다.
즉, 평탄한 영역이나 단순한 에지(Edge)는 좋은 특징이 될 수 없고, 코너처럼 고유한 형태가 필요하다.
Compactness and Efficiency(압축성 및 효율성)
전체 픽셀 수에 비해 훨씬 적은 수의 특징점만 추출되므로, 계산량을 줄이고 효율적으로 다룰 수 있어야 한다.
Locality(지역성)
특징은 이미지의 작은 영역을 기반으로 정의되므로, 가림(occlusion)이나 배경의 복잡한 구조에도 강인하다.
이미지 매칭에서 가장 중요한 조건 중 하나는 같은 물체나 장면이 여러 이미지에서 관찰되더라도 동일한 특징점을 반복적으로 찾아낼 수 있는가이다. 이를 재현성(Repeatability)이라고 한다.
예를 들어, 우리가 어떤 산맥을 두 각도에서 촬영했다고 할때, 이상적인 특징점 검출기는 두 이미지 모두에서 산맥의 모서리나 봉우리와 같은 동일한 지점을 찾아내야 한다. 만약 한 이미지에서는 특징점을 검출했는데, 다른 이미지에서는 전혀 검출하지 못한다면 그 점은 매칭할 수 없으므로 쓸모가 없다.

실제 매칭 과정에서 두 이미지를 동시에 보면서 검출하지 않는다.
즉, 각 이미지는 독립적으로 처리되어야 하며, 그 결과로 얻은 특징점들이 서로 대응할 수 있기를 기대한다.
독립적으로 특징점을 찾을 때, 한쪽 이미지는 잡음에 의해 특징점이 사라지거나, 다른 쪽 이미지는 회전축소로 인해 위치가 달라져 특징 검출이 실패할 수 있다.
따라서 특징 검출기는 기하학적 변환(translation, rotation, scaling)이나 조명 변화에도 불변(invariant)하거나, 최소한 강인(robust)해야 한다.
좋은 특징점 검출기는 다음 조건들을 만족해야 한다.
1. Invariant to translation, rotation, and scale(이동, 회전, 크기 불변성)

2. Robustness to Transformation(변환 강인성)

3. Robustness to Lighting and Noise(조명 잡음 강인성)
특징점 매칭에서 두 번째로 중요한 조건은 각 특징점이 충분히 뚜렷하고 구별 가능해야 한다는 것이다. 단순히 반복적으로 검출되는 것만으로는 부족하다. 만약 모든 특징점이 비슷한 모양과 값을 가진다면, 서로 다른 점들 사이를 구분할 수 없어서 매칭이 실패한다.

예를 들어, 평평한 벽면이나 균일한 질감(texture) 영역에서는 많은 점들이 비슷하게 검출될 수 있다. 이 경우 어떤 점이 어떤 점에 대응되는지 명확히 알 수 없으므로, 신뢰성 있는 대응 관계를 결정하기 어렵다. 따라서 각 특징점은 주변 영역을 반영하는 고유하고 차별적인 기술자(descriptor)를 가져야 한다.
구별성 있는 특징점은 다음의 성질을 만족해야 한다.
1. Invariance to geometric changes(기하학적 변환 불변성)
2. Invariance to photometric changes(광학적 변환 불변성)
3. High distinctiveness(높은 구별성)
영상 매칭에서 중요한 것은 다양한 변환에도 안정적으로 검출될 수 있는 불변 특징(local invariant features)을 찾는 것이다. 이러한 불변 특징들은 컴퓨터 비전의 여러 응용에서 기본적인 빌딩 블록으로 사용된다.
대표적인 불변 특징 검출기들은 다음과 같다.
Hessian & Harris [Beaudet, 1978], [Harris, 1988]
코너 및 블롭 형태의 특징점을 찾는 대표적인 기법이다.
Laplacian, DoG [Lindeberg, 1998], [Lowe, 1999]
라플라시안과 가우시안 차분(DoG)을 이용해 스케일 불변성을 확보한 검출 방식이다.
Harris-/Hessian-Laplace [Mikolajczyk & Schmid, 2001]
위치 검출에는 Harris/Hessian을, 스케일 선택에는 라플라시안을 결합한 방법이다.
Harris-/Hessian-Affine [Mikolajczyk & Schmid, 2004]
어파인 정규화를 적용하여 어파인 변환에 강인한 특징점을 검출한다.
EBR and IBR [Tuytelaars & Van Gool, 2004]
경계 기반 영역(EBR)과 강도 기반 영역(IBR)을 통해 안정적인 특징 영역을 추출한다.
MSER (Maximally Stable Extremal Regions) [Matas, 2002]
밝기 변화에도 강인한 극값 영역을 안정적으로 검출하는 방법이다.
Salient Regions [Kadir & Brady, 2001]
정보량이 많은 영역을 검출하여 주목할 만한 지역(salient regions)을 특징으로 삼는다.
Others
이후에도 SURF, ORB 등 다양한 검출기가 개발되어 속도, 정확도, 강인성 측면에서 개선을 이어갔다.
이러한 지역 불변 특징들은 오늘날 파노라마 생성, 객체 인식, 3D 재구성 등 다양한 컴퓨터 비전 과제에서 기본적인 빌딩 블록으로 널리 사용되고 있다.
Computer Vision: Algorithms and Applications 2nd Edition - Richard Szeliski
Digital Image Processing 2nd Rafael C.Gonzalez, Richard E. Woods