인공지능을 활용하는 분야는 정말 다양하고 그 분류 또한 다양하다. 그 중 사진이나 동영상 같은 이미지, 카메라와 관련된 분야를 흔히 컴퓨터 비전이라고 부른다. 이 컴퓨터 비전에는 OCR, 이미지 인식, 패턴 인식, 얼굴 인식, 객체 탐지 등 세부 분야가 존재한다.
객체 탐지는 디지털 이미지 또는 비디오 내에서 사용자가 관심있는 객체를 탐지할 때 사용하는 기술이다. 예를 들어 고양이와 강아지가 함께 찍힌 사진이 있다고 가정해보자. 이 중 사용자는 강아지만을 탐지하고 싶다. 이 경우 인공지능에게 강아지를 학습시키고 위의 사진을 인공지능 모델에게 보여주면 인공지능 모델이 사진에서 강아지와 강아지가 아닌 것을 구분하고 강아지인 것이 사진에서 위치한 영역을 표시해주는 것이다.
이미지 인식이 인공지능이 사진을 보고 그 사진 전체가 무엇인지를 인식하는 것이라면 객체 탐지는 그 사진 내부에 어떤 객체들이 존재하는지를 파악한다는 점에서 차이가 있다.
이미지 전체에서 특징을 추출하는 이미지 인식과는 다르게 객체 탐지는 이미지 내부에서 객체가 있을만한 영역을 찾고 그 영역 내부에 존재하는 객체를 분류하는 작업을 거친다. 이 두 단계를 순차적으로 처리하는 모델을 2-Stage모델이라고 하며, 객체가 있을 법한 위치를 찾는 과정과 분류를 동시에 하는 것을 1-Stage모델이라고 한다.
기존에는 2-Stage모델은 비교적 느리지만 정확하고, 1-Stage모델은 비교적 빠르지만 정확도가 낮다고 알려졌지만 최근 1-Stage모델들의 기술이 발전하여 1-Stage도 정확도가 높다고 할 수 있다.