Object Detection 기본 개념

노태경·2022년 4월 5일
0

개발블로그

목록 보기
5/6

Target Label

물체의 영역을 숫자로 표현하는 것으로 localization을 위한 모델

localization이란?

주어진 이미지 안의 물체가 어느 위치에 있는지 찾아내는 것으로 주로 Bounding Box라는 사각형 형태로 위치를 나타낸다.
물체의 위치가 담긴 사각형을 min_x, min_y,max_x,max_y로 나타내거나 min_x, min_y,width, height로 나타낸다.

Classification모델을 만들 때는 convolution layer로 구성된 backbone network를 통해 이미지의 특성을 추출하고 그 다음에 클래스 간 분류를 위한 fc layer를 추가한다.

###backbone network란?
등뼈라는 뜻으로 입력이 처음 들어와서 출력에 관련된 모듈에 처리된 입력을 보내주는 역할을 말한다.

Classification문제를 풀 때는 표현해야 할 클래스에 따라 최종 결과 노드의 개수가 정해진다.

localization을 위해 박스의 위치를 표현할 output노드 4개를 convolution layer로 구성된 백본 네트워크 다음에 추가


P_c는 물체가 있을 확률, 물체가 있을 때 c1,c2,c3는 각 클래스 1,2,3에 속할 확률이 된다.
p_c가 0일 경우는 배경인 경우가 됨
필요에 따라 c1,c2,c3와 p_c를 분리하여 다른 활성화 함수를 적용하고 손실을 계산 할 수 있다.

그리고 여기에 원하는 bounding box를 정의하기 위해 4개의 노드가 추가된다.
bounding box는 좌측 상단의 점의 위치가 bounding box의 폭과 높이로 표현한다.
bx,by는 좌측 상단의 점을 표현하는 x축과 y축의 좌표이고 b_h와 b_w는 바운딩 박스의 높이와 폭이 된다.
bx,by,bw,bh는 normalize된 상대적인 값으로 표시되는 것으로 0~1 사이의 값으로 표현된다.

참고
https://blog.naver.com/keeping816/221681396990
아이펠 부산 1기

0개의 댓글