
1. Data-driven(데이터 추진 접근 방법)
2. 클래스 분류기
3. 거리측정 방식(L1, L2)
4. Setting Hyperparameters
5. Linear Classification
로 구성이 되어 있습니다.

컴퓨터는 이미지를 숫자 조합으로 인식합니다.
1. 최근접 이웃(Nearest Neighbor)
2. K-최근접 이웃(K-NearestNeighbors)
이렇게 두가지에 대해 설명하였습니다.

Nearest Neighbor의 취약점을 보완한 분류기 입니다.
위 그림은 K의 숫자가 커지면 커질 수록, 점점 퀄리티가 좋아진다는 것을 뜻합니다. (K는 주변 이웃의 수)
L1(Mahatan) distance
L2(유클리드) distance

좌표값이 변경되면 거리가 달라지는 특징

좌표값 변경해도 동일한 특징

첫번째 방식은 전체 데이터셋에서 train셋, validation셋, test셋으로 분류하는 방식입니다.
검증세트를 중간에 따로 빼놓았기 때문에, overfitting문제를 예방하는데 탁월합니다.

두번째 방식은 Cross-validation(교차검증)방식입니다.
그림에서도 볼 수 있듯이, train셋, test셋 사이에 동일하게 검증셋을 껴넣고, fold하는 방식을 사용합니다.
하지만 딥러닝에서는 시간이 너무 오래 걸리는 문제 때문에, 잘 사용을 안한다고 합니다.
- 사진 여러개 분류 후, L2거리 계산한 결과, distance 똑같이 나옴.
- 이미지는 너무 많은 데이터로 이루어져 있기 때문에, 차원의 저주(curse of dimensionality)에 빠질 위험성.
이 두가지 이유로 이미지에는 잘 사용하지 않는 분류기 입니다.

이렇게 쭉 계산하고, 뒤에 + 있는 것을 더해주면 최종 Score가 나오게 됩니다.

대표적으로 위와 같이 3가지 경우가 있고, 이유를 정리하자면 다음과 같습니다.
1: 선(결정 영역: Decision Region)을 그릴 방법이 없음
2 (동등성 parity): 선형분류기는 픽셀 단위로 세서, 홀수,짝수 구분이 어려움
3 (멀티모드 multi modes): 경계를 그릴 수 있는 방법이 모호
감사합니당 ~ 🦾