Object Detection

kangmin·2024년 9월 21일

object localization이란 이미지 데이터에서 특정 물체의 위치를 인식하는 작업이다.
일반적으로 물체의 영역을 네모 박스로 표시한다.

localization과 detection의 차이는 물체의 수로 결정된다.
localization인 경우 한가지 물체의 위치를 박스로 표시하지만 detection인 경우 여러개의 물체의 위치를 인식하고 표시한다는 점에서 차이가 있다.

output vector의 각 속성
$P_c$ : 이미지상에 물체의 존재 여부
$b_x$ : 물체의 중심의 x좌표
$b_y$ : 물체의 중심의 y좌표
$b_h$ : 물체의 높이
$b_w$ : 물체의 폭

랜드마크란 이미지에서 포착하고자 하는 부분을 의미한다.

예를 들어 얼굴인식인 경우 사람의 얼굴 윤곽선을 표현할 수 있는 점, 입꼬리, 눈 등이 랜드마크가 될 수 있다.

따라서 landmark detection은 감정인식, 모션인식등에 활용될 수 있다.

물체 인식을 하기 위한 알고리즘 중 sliding window detection에 대해 알아봅시다.

네모 박스를 왼쪽 상단에서 부터 오른쪽으로 일정 크기 만큼 이동하며 해당 영역에 물체가 존재하는지 탐지하는 방식이다.

하지만 경계가 정확하지 않으며 이미지를 작게 나눠야 하므로 컴퓨팅 자원이 너무 크다는 단점이 존재한다.

슬라이딩 윈도의 합성곱 구현에 대해 알기 위해서는 먼저 fully connected layer를 convolutional layer로 전환하는 과정이 필요합니다.

위 사진은 5x5x16의 데이터를 fc 레이어를 통해 크기가 400인 벡터로 변형합니다.

하지만 5x5x16의 데이터에 5x5의 필터를 400개 적용한다면 1x1x400의 데이터로 변형 가능합니다.
이는 fc 레이어를 적용했을때와 같은 데이터입니다.

Convolutional Implementation Sliding Windows는 슬라이딩 윈도우의 이미지를 모두 작은 영역으로 줄이고 합성곱 연산을 한다는 단점을 보완한 방식입니다.

16x16x3의 데이터에 필터를 적용시켜 6x6x16의 데이터로 변형
fc layer 대신 5x5x400의 필터를 적용시켜 2x2x400의 데이터로 변형
추가적으로 convolutin 레이어를 두번 더 적용시킴
output은 총 4가지 부분으로 (1,1)에 해당하는 부분은 원본 이미지의 왼쪽 상단 14x14x3의 영역으로 파란색 영역이 주를 이루기 때문에 파란색으로 출력됨, 나머지 부분은 모두 노란색 영역이 포함되므로 노란색으로 출력됨

따라서 슬라이딩 윈도 처럼 여러번의 연산을 수행하지 않고 한번의 연산으로 모든 구역의 특성을 알 수 있게 되었다.