[1주차] Ch01 - 소개

IkSun·2023년 10월 11일

Compute Vision & DNN

목록 보기

1/5

학습목차

영상처리 문제 이해

영상처리 문제 해결 방법

성능지표 : 정확도 & 처리속도

딥러닝 소개

어려운 이유
- 역 문제 $^{inverse \ problem}$ : 3차원 세계를 2차원 영상으로 입력받아 3차원 세계를 인지
- 불량 문제 $^{ill-posed \ problem}$ : 정렬(sorting) 처럼 답이 유일한 우량 문제 $^{well-posed \ problem}$ 와 달리 컴퓨터 비전 문제는 답이 유일하지 않은 어려운 문제(예를 들어, 영역 분할 문제에서 사람 몸 전체를 하나로 분할하거나 부분별로 구분하여 분할하는 등 여러 답이 가능)
- 다양한 변형(기하학적 변환, 광도 변환) 발생.
- 조명의 상태, 배경의 색상 등등에 따른 고양이 식별 문제가 쉽지 않다.

${\ Confusion Matrix}$

오류 경향을 세밀하게 분석하는데 사용
참/거짓 긍정률, 참/거짓 부정률, 재현율 $^{recall}$ 과 정확률(정밀률) $^{precision}$ , F 측정
TP (참 긍정) : 맞는건데 맞다고 한 것. 총 15개의 얼굴 중 12개를 옳게 검출.
- $n_{11} = 12$
FN (거짓 부정) : 맞는건데 틀렸다고 한 것. 총 15개의 얼굴 중 3개의 얼굴을 못 찾았으므로.
- $n_{12} = 3$
FP (거짓 긍정) : 틀린건데 맞다고 한 것. 얼굴이 아닌 곳을 얼굴로 검출 한 것 2개
- $n_{21} = 2$
TN (참 부정) : 틀린건데 틀렸다고 한 것. 얼굴 아닌 곳을 얼굴이 아니다 라고 검출 (무수히 많다.)
- $n_{22}$
정확률 : $\frac{TP}{TP+FP} = \frac{n_{11}}{(n_{11} + n_{21})} = \frac{12}{14}$
재현율 : $\frac{TP}{TP+FN} = \frac{n_{11}}{(n_{11} + n_{12})}= \frac{12}{15}$
$F_1$ : $\frac{2 \times 정확률 \times 재현율}{정확률 + 재현율} = \frac{24}{29}$
- 정확률과 재현률을 가지고 숫자 하나로 표현 가능한 $F_1$ 지표

즉 입력 영상에서 지식에 기반한 120차원의 특징 벡터 x 를 먼저 추출한 후, x가 2개의 은닉층(fully-connected 노드로 구성) 신경망에 입력되는 경우의 기계 학습 및 테스트 과정

즉 컬러 영상 통째로 x(= 32x32x3 = 3072 픽셀) 벡터가 10개의 은닉층을 갖는 신경망에 직접 입력되는 경우의 기계 학습 과정. 만약 학습 파라미터가 1억개(10개 은닉층당 fully-connected 노드가 각각 3072라 가정)인데, 학습 데이터수가 6백장밖에 없다면?
- 픽셀 하나당 0~255까지의 256개를 가질 수 있으니까 계산하면 너무 큰 입력공간
3차원 이상의 배열을 텐서(tensor)라 하고, 이러한 기계 학습에서 텐서 처리 전용으로 구글에서 개발한 칩을 TPU(Tensor Processing Unit)
입력 영상 경우의 수 $= 256^{3072} = 2^{24576}(cf. 2^{32} ≈ 40억)$