L2 regression과 L1 regression
Linear classification의 관점에서 w1와 w2는 같음. 내적은 같기 때문이다.
그러나 L2 regression은 w2를 더 선호할 것이다.
왜냐면 L2 regression에서는 w2가 더 norm이 작기 때문에
그러니 L2 Regression은 분류기의 복잡도를 상대적으로 w1와
w2중 어떤 것이 더 coarse한지를 측정함.
Linear classification에서 W가 의미하는 것은, "얼마나 x가
Output Class와 닮았는지" 이다.
그러니 L2 Regression은 x의 모든 요소가 영향을 줬으면 하는 것이다.
반면 L1 Regularization의 경우에는 정 반대이다.
L1 Regularization을 쓰게 되면 W2보다는
W1을 더 선호하게 된다.
L1 Regularization은 가중치 W에 0의 갯수에 따라
모델의 복잡도를 다룬다.
L1에 대한 일반적인 직관은 "일반적으로 L1은 sparse한 solutions을 선호한다"는 것이다.
그리고 이것은 W의 요소 중 대부분이 0이 되게 할 것이다.
그렇게 때문에 L1이 "복잡하다"고 느끼고 측정하는 것은
0이 아닌 요소들의 갯수가 될 수 있다.
반면 L2의 경우에는 W의 요소가 전체적으로 퍼져있을 때
"덜 복잡하다" 라고 생각하게 된다.
그러니 선택은 데이터와 문제에 달려 있다.
(사진의 경우엔 w1과 w2의 경우 L1의 값이 같음)
Softmax classifier (Multinomial Logistic Regression)
스코어를 지수화, 정규화 한 후 정답 스코어에만 -log를 씌움
이걸 softmax loss, 다항 로지스틱 회귀라고 한다.
정리하자면,
1. 입력 x로부터 스코어를 얻기 위해 Linear classifier를 사용한다.
2. softmax, svm loss와 같은 손실함수를 이용해서, 모델의 예측값이 정답 값에 비해 "얼마나 구린지"를 측정한다.
3. 모델의 "복잡함" 과 "단순함" 을 통제하기 위해 손실 함수에 regularization term을 추가한다.
4. 이를 합쳐서, 최종 손실 함수가 최소가 되게 하는 가중치 행렬이자 파라미터인 행렬W를 구한다.
→ 4번은 어떻게? 어떻게 실제 Loss를 줄이는 W를 찾을 수 있지?
✨ Optimization (최적화) 을 통해!