visual feature란?
예시) 코끼리의 특징:
모델의 쓰임새에 따라 다양한 task들을 decoder를 통해서 task의 출력 형태를 만드는 과정임
이미지에 있는 물체는 무엇인지?(분류), 위치를 표시하기 위한(탐지), 특정 물체의 픽셀을 따로 색칠하기(segmentation)
image - backbone - decoder
decoder에서 각 클래스의 어떤 클래스가 가장 높은지를 나타내면됨.
fc + softmax 로 이루어짐
B = batch size
CxWxH 만큼의 벡터가 있는 것임
FC = (BxC) (BxC) (Bx # of class) -> Softmax
강아지의 위츠를 박스로, 클래스별로 확률을 출력해주는 역할
강아지 혹은 고양이에 해당하는 영역을 픽셀 단위로 출력해주는 역할임.
Backbone은 입력 이미지에서 유의미한 feature를 추출한 뒤 압축하는 역할임. 태스크 종류가 다르더라도 동일한 backbone을 사용할 수 있음