VISUAL FEATURE란?
Vision Task : '고양이'를 찾아줘 -> 고양이 특징이 담긴 Feature 유용
Vision Task : '강아지'를 찾아줘 -> 강아지 특징이 담긴 Feature 유용
모델의 쓰임새에 따라 다양한 비전 태스크가 존재함
Decoder는 압축된 Feature를 목표하는 테스크의 출력 형태로 만드는 과정을 수행
1) Classification : 이미지에 있는 물체 Class
2) Detection : 객체 위치에 Box
3) Segmentation : 객체에 해당하는 Pixel 표시
이미지 인풋 -> 이미지에서 Feature 추출 및 압축 -> 압축된 Feature를 활용해 비전 태스크 형태로 출력
Backbone은 입력 이미지에서 유의미한 Feature를 추출한 뒤 압축하는 역할이므로, 태스크 종류가 다르더라도 동일한 backbone을 사용할 수 있음.
Decoder의 경우에는 최종 결과를 출력해주는 역할이므로, 비전 태스크가 바뀐다면 올바른 형태로 결과를 산출할 수 있도록 디코더 구조를 변경시켜주어야함.