upstage_CV_모델구성

TOLL TERRY·2024년 1월 29일

업스테이지AI_패스트캠퍼스

upstageAI_패스트캠퍼스

목록 보기

12/20

컴퓨터 비전 모델 구조 이해하기

visual feature란?

시각적 특징들로 눈으로 감지한 것으로 판단된 feature들
컴퓨터 비전의 task를 해결할 때 필요한 이미지의 특성을 담고 있는 정보들을 지칭함.

예시) 코끼리의 특징:

긴 코, 큰 귀, 회색빛 피부

Backbone의 역할

이미지에서 중요한 특징을 추출함
주어진 비전 task를 수행할 수 있는 압축된 visual feature를 산출함

1. 구조

layer가 길어질수록 -ex 3layer)
하위(맨처음 layer)들은 low-level(픽셀의 선) - 1layer
중간(중간 layer)들은 mid-level(사람의 눈, 귀, 코) - 2layer
상위(마지막 layer)들은 high-level(사람 얼굴의 윤곽전체) - 3layer

모델 구성

Decoder의 역할

모델의 쓰임새에 따라 다양한 task들을 decoder를 통해서 task의 출력 형태를 만드는 과정임
이미지에 있는 물체는 무엇인지?(분류), 위치를 표시하기 위한(탐지), 특정 물체의 픽셀을 따로 색칠하기(segmentation)

Encoder의 역할

Encoder는 backbone에서 나온것을 다시 가공하여 decoder에 들어감.

Decoder의 역할

image - backbone - decoder

1. 모델의 전체 구조

2. Task에 따른 decoder 결과

탐지

강아지의 위츠를 박스로, 클래스별로 확률을 출력해주는 역할

x1,y1,x2,y2, #of class을 출력해주면 됨.

Segmentation

강아지 혹은 고양이에 해당하는 영역을 픽셀 단위로 출력해주는 역할임.

최종

Backbone은 입력 이미지에서 유의미한 feature를 추출한 뒤 압축하는 역할임. 태스크 종류가 다르더라도 동일한 backbone을 사용할 수 있음

TOLL TERRY

행복을 찾아서(크리스 가드너)

이전 포스트

upstage_CV_고전

다음 포스트

upstage_CV_모델구성

upstageAI_패스트캠퍼스

컴퓨터 비전 모델 구조 이해하기

Backbone의 역할

1. 구조

모델 구성

Decoder의 역할

Encoder의 역할

Decoder의 역할

1. 모델의 전체 구조

2. Task에 따른 decoder 결과

분류

탐지

Segmentation

최종

upstage_CV_고전

upStage_CV_CNN

0개의 댓글