[cs231n] Lecture 2 : Image Classification

woonho·2022년 7월 7일

Viewpoint Variation => 보는 방향이 살짝만 변해도 pixel grid가 확 달라진다.
Illumination => 빛의 상태에 따라 pixel grid가 달라진다.
Deformation => object가 어떤 상태에 있느냐에 따라 pixel grid가 달라진다.
Occlusion => object가 가려져 있어, 일부분만 노출될 경우, pixel grid로 판단을 하기에 어려워진다.
Background Clutter => Background와 object의 색깔이 비슷한 경우 pixel grid상에서는 경계가 모호하기 때문에, 판단이 힘들다.
Intraclass variation => 같은 종류의 object라도, 각각 색깔, 형태가 모두 다르기 때문에 판단에 어려움이 있다.

=> 많은 이미지와 그 이미지의 라벨을 학습한 뒤에 새로운 이미지가 들어왔을 때, 가장 비슷한 training image의 라벨이라고 예측하는 것

=> 가장 근접해 있는 K개의 데이터의 라벨을 보고 K개중 가장 많은 라벨과 같다고 간주함.

Hyperparameter : 학습되어지는 값이 아닌 미리 정해야 하는 parameter
1) K => 아래 그림과 같이 K의 값이 늘어날 수록 경계 선이 모호해지는 경향이 있다.

2) Distance metric => L1을 사용하면 경계선이 좌표축에 평행해진다.
Setting Parameters
1) Choose Parameters that work best on the data : 단순히 여러번 실험해보고 가장 잘되는 parameter를 찾는다.
=> 하지만, training data로 test를 하기 때문에, K=1일 때, 가장 실험 결과가 잘 나온다.
2) Split data into train and test, choose hyperparameters that work best on test data
=> test data에서 실험 결과가 잘 나올만한 알고리즘이 딱히 없다.
3) Split data into train, val, and test choose hyperparameters on val and evaluate on test
=> Better!
4) Cross-Validation: Split data into folds, try each fold as validation and average the results => training data를 여러개의 fold로 나누어서 그 중 하나를 validation data로 지정해서 수행하는 것
=> 데이터의 개수가 적을때 주로 사용함.
K-Nearest Neighbor가 image classification 에서 사용되지 않는 이유
1) Very slow at test time
2) Distance Metrics on pixels are not informative
3) Curse of Dimensionality
=> 이미지는 고려해야할 요소가 많은데 Distance를 이용해 이미지를 분류하는 것은 적합하지 않다.

Parametric Approach

=> 위의 그림에 해당하는 parameter인 weight(가중치)를 학습하는 방법이다.
=> input image의 pixel 값에 weight를 곱하고 bias를 더해 score vector를 뽑아내 그 중 score가 가장 높은 class로 분류한다.
Hard cases for a linear classifier
=> 이와 같은 경우에는 선 하나로 분류되지 않기 때문에 Linear Classifier를 적용하기 어렵다.