물체의 영역을 숫자로 표현하는 것으로 localization을 위한 모델
localization이란?
주어진 이미지 안의 물체가 어느 위치에 있는지 찾아내는 것으로 주로 Bounding Box라는 사각형 형태로 위치를 나타낸다.
물체의 위치가 담긴 사각형을 min_x, min_y,max_x,max_y로 나타내거나 min_x, min_y,width, height로 나타낸다.
Classification모델을 만들 때는 convolution layer로 구성된 backbone network를 통해 이미지의 특성을 추출하고 그 다음에 클래스 간 분류를 위한 fc layer를 추가한다.
###backbone network란?
등뼈라는 뜻으로 입력이 처음 들어와서 출력에 관련된 모듈에 처리된 입력을 보내주는 역할을 말한다.
Classification문제를 풀 때는 표현해야 할 클래스에 따라 최종 결과 노드의 개수가 정해진다.
localization을 위해 박스의 위치를 표현할 output노드 4개를 convolution layer로 구성된 백본 네트워크 다음에 추가
P_c는 물체가 있을 확률, 물체가 있을 때 c1,c2,c3는 각 클래스 1,2,3에 속할 확률이 된다.
p_c가 0일 경우는 배경인 경우가 됨
필요에 따라 c1,c2,c3와 p_c를 분리하여 다른 활성화 함수를 적용하고 손실을 계산 할 수 있다.
그리고 여기에 원하는 bounding box를 정의하기 위해 4개의 노드가 추가된다.
bounding box는 좌측 상단의 점의 위치가 bounding box의 폭과 높이로 표현한다.
bx,by는 좌측 상단의 점을 표현하는 x축과 y축의 좌표이고 b_h와 b_w는 바운딩 박스의 높이와 폭이 된다.
bx,by,bw,bh는 normalize된 상대적인 값으로 표시되는 것으로 0~1 사이의 값으로 표현된다.
참고
https://blog.naver.com/keeping816/221681396990
아이펠 부산 1기