[CV] Feature Detection and Matching(5) - Feature Points Matching

Yeontachi·2025년 8월 20일

Computer Vision Note

목록 보기
31/47
post-thumbnail

컴퓨터 비전에서 로컬 특징(Local Features)은 이미지에서 안정적으로, 반복적으로 검출되는 지점을 의미한다. 이러한 특징은 영상이 이동(translation), 회전(rotation), 크기(scale) 변화, 그리고 조명 변화나 일부 가려짐(occlusion)이 발생하더라도 비교적 잘 유지되기 때문에, 두 이미지 간의 대응 관계를 찾는 데 핵심적인 역할을 한다.

로컬 특징 기반 매칭 과정은 크게 세 단계로 이루어진다.
첫째, Detection 단계에서 영낭 내에서 독특하고 구별 가능한 지점(Interest points)을 검출한다.

둘째, Description 단계에서는 각 관심점을 둘러싼 영역을 벡터 형태의 특징 기술자(feature descriptor)로 변환한다. 이 기술자는 해당 지점 주변의 구조적\cdot방향적 정보를 압축적으로 담고 있어 다른 지점들과 비교가 가능하다.

마지막으로, Matching 단계에서는 두 이미지의 특징 기술자들을 비교하여 가장 유사한 쌍을 찾는다. 보통 유클리드 거리(Euclidean distance)나 SSD(Sum of Squared Differences)와 같은 척도를 이용하여 두 기술자 간의 거리를 계산하고, 가장 가까운 후보를 대응점으로 결정한다.

그러나 단순히 가장 가까운 점만을 선택하면 모호한 매칭(ambiguous match)이 발생할 수 있다. 이를 방지하기 위해 비율 테스트(ratio test)가 사용되는데, 이는 가장 가까운 매칭과 두 번째로 가까운 매칭 간의 거리 비율을 계산하여, 값이 충분히 낮을 때만 신뢰할 수 있는 매칭으로 인정한다. 이 방법은 잘못된 대응을 줄이고, 매칭의 정확도를 높여준다.

로컬 특징 매칭의 장점은 복잡한 장면에서도 강인함을 보장한다는 것이다. 전체 이미지를 분석할 필요 없이 선택된 일부의 특징점만을 비교하기 때문에 연산 효율성이 높고, 잡음이나 흐림, 가려짐에도 불구하고 안정적으로 객체나 장면을 인식할 수 있다. 따라서 로컬 특징은 객체 인식, 이미지 정합, 3D 재구성 등 다양한 비전 응용 분야에서 필수적인 역할을 담당한다.

Matching local features

로컬 특징 매칭은 두 이미지에서 검출된 특징점들 사이의 대응 관계를 찾는 과정이다. 예를 들어, 한 건물을 다른 위치에서 촬영했을 때, 동일한 건물의 창문이나 기둥에 해당하는 부분이 두 이미지 모두에서 검출된다. 하지만 실제 대응 관계를 찾기 위해서는 각 특징점 주변의 디스크립터(Descriptor)를 비교해야 한다.

이 과정의 핵심은 후보 매칭(candidate matches)을 생성하는 것이다. 즉, 이미지 1의 한 특징점에 대해, 이미지 2에서 가장 비슷한 디스크립터를 가진 점을 찾는 것이다. 두 디스크립터가 얼마나 유사한지를 판단하기 위해 자주 사용하는 방법이 SSD(Sum of Squared Differences) 혹은 Euclidean distance이다.

가장 단순한 방법은 모든 디스크립터 쌍을 비교하고, 가장 가까운 거리(혹은 가장 가까운 k개, 또는 일정 임계값 이하의 거리)를 선택하는 것이다. 하지만 이 과정에서는 여전히 여러 개의 후보가 유사하게 보일 수 있기 때문에, 모호한 매칭(ambiguous match)이 발생할 수 있다. 이를 해결하기 위해 비율 테스트(ratio test) 같은 추가적인 기준을 적용해 신뢰도를 높인다.

Ambiguous match

특징점 매칭 과정에서 발생하는 중요한 문제는 모호한 매칭(ambiguous match)이다. 예를 들어, Image1의 특정 특징점(노란 박스)이 Image2에서 여러 개의 후보 특징점과 비슷하게 보일 수 있다. 이 경우 단순히 SSD(Sum of Squared Dfferences)나 유클리드 거리만으로는 "어느 것이 진짜 대응점인지" 확신하기 어렵다.

이를 해결하기 위해 Lowe(2004)는 비율 테스트(Ratio Test)를 제안하였다. 한 특징점에 대해 가장 가까운 매칭 후보와 두 번째로 가까운 매칭 후보의 거리를 각각 계산한 뒤, 그 비율을 비교하는 방식이다.

Ratio=dist(best match)dist(second best match)Ratio = \frac{dist(\text{best match})}{dist(\text{second best match})}
  • 만약 비율이 낮다면, 가장 가까운 후보가 두 번째 후보보다 훨씬 더 유사하다는 의미이므로 좋은 매칭으로 간주할 수 있다.
  • 반대로 비율이 높다면, 두 후보가 비슷하게 유사하다는 뜻이므로 이는 모호한 매칭일 가능성이 크다.

따라서 비율 테스트를 통해 모호한 매칭을 제거하고, 더 신뢰성 있는 대응 관계만을 남길 수 있다. 이 과정은 SIFT 매칭을 견고하게 만들어주는 핵심 요소 중 하나이다.

위 그래프를 보면, 올바른 매칭은 ratio가 보통 0.4 ~ 0.6 이하에서 많이 나타난다. 즉, 첫 번째 후보가 두 번째 후보보다 훨씬 더 가까워서 확실히 구분 가능하다.

잘못된 매칭은 ratio가 0.8 이상에서 많이 분포한다. 즉, 두 후보가 거의 같은 거리여서 모호한 경우를 의미한다.

따라서 Lowe는 실험적으로 임계값(threshold ratio)을 약 0.8로 설정하면, 대부분의 잘못된 매칭을 제거하면서 올바른 매칭은 유지할 수 있음을 보여주었다.

정리하면, SIFT 매칭은 단순히 최근접 이웃만 선택하지 않고, 최근접과 두 번째 최근접 거리의 비율이 일정 수준(≈0.8) 이하일 때만 좋은 매칭으로 채택한다.

SIFT preliminary matches

img1은 서로 다른 뷰포인트에서 촬영된 두 장의 건물 사진이고, 목표는 두 이미지 간 동일한 물체 부분(지붕, 창문, 벽 등)을 대응(matching)시키는 것이다.

img2를 보면, 초록색 점(green circles)는 검출된 SIFT 특징점(feature points)이며, 파란색 선(bluelines)는 서로 대응한다고 판단된 매칭 관계(matches)이다.

즉, SIFT 디스크립터를 이용해 각 이미지에서 특징점들을 검출하고, 그 특징점들 간의 유사도(주로 유클리드 거리 + Ratio Test)를 통해 매칭된 쌍들을 시각적으로 연결한 것이다.

Value of Local Invariant Features

로컬 불변 특징은 이미지에서 특징적이고 반복적으로 나타나는 점, 선, 패턴을 검출하여 기술한 것이다. 이러한 특징들은 이미지의 크기 변화(scale), 회전(rotation), 조명 변화(illumination), **가려짐(occlusion)**과 같은 다양한 상황에도 강인하다.

  1. 복잡도 감소 (Complexity reduction)

    • 전체 이미지를 다루는 대신 **특징적인 지점(interest points)**만 선택하여 처리 → 계산량이 줄고 효율성이 향상된다.
  2. 세분화 불필요 (No segmentation required)

    • 이미지를 사전에 객체 단위로 나눌 필요 없이, 바로 이미지나 객체, 부분(part)을 기술할 수 있다.
  3. 로컬 특성(Local character)의 장점

    • 일부 영역이 가려지거나 배경이 복잡(clutter)해도 나머지 특징점으로 충분히 매칭 가능 → 강건성(robustness) 확보.
  4. 강인성 (Robustness)

    • 잡음(noise), 흐림(blur) 같은 열화에도 비슷한 디스크립터(descriptor)를 유지 → 안정적인 인식 가능.

Applications of Local Invariant Features

이러한 장점 덕분에 로컬 불변 특징은 컴퓨터 비전의 핵심 도구로 사용된다.

  • Wide baseline stereo : 서로 다른 시점에서 촬영한 이미지 간 정합(matching).
  • Motion tracking : 동영상에서 객체나 특징점을 시간에 따라 추적.
  • Panoramas : 여러 장의 이미지를 이어붙여 파노라마 생성.
  • Mobile robot navigation : 로봇이 주변 환경을 인식하고 이동 경로를 계획.
  • 3D reconstruction : 2D 이미지로부터 3D 장면 복원.
  • Recognition : 물체, 장면, 얼굴 등 인식.

로컬 불변 특징은 이미지 내에서 신뢰성 있고 구별 가능한 지점을 선택하여, 복잡성을 줄이면서도 강건한 인식을 가능하게 한다. 이 덕분에 스테레오 매칭, 추적, 파노라마 생성, 로봇 내비게이션, 3D 복원, 객체 인식 등 다양한 비전 문제에서 핵심적인 역할을 한다.

References

Slide credit: Kristen Grauman

profile
기초를 다지는 중입니다.📚🧑‍💻

0개의 댓글