FEB 0.0.5

$ sudo park . sh·2021년 1월 12일

LinearClassifier ML

FEB

목록 보기

6/13

Linear Classifier : Three Viewpoints

Visual Viewpoint
- One template per class
- Algebraic Viewpoint
  
  $f(x,W) =Wx$
Geometric Viewpoint

Hyperplanes cutting up space
Score Function
Loss Function 손실함수
- 머신러닝의 과정에서의 목적은 최적화를 통해 손실 함수에서 비용(손실)이 최소가 되는 부분을 찾는것으로
- 대입한 결과와 실제 정답(label) 간의 간격(차이)를 최대한 줄이는 방향으로 값을 대입하게 된다
- 즉, 손실 함수의 값인 '오차'를 줄여 내기 위한 목적으로 사용한다
- Loss function 은 현재 분류기의 성능 지표를 나타낸다
- Low loss = 좋은 분류기
- High loss = 나쁜 분류기
- objective function , cost function 이라고도 함
- 모델을 평가하는 정량적 방법
  - Loss function 의 최대 , 최소값은 ?
    - 최대값은 무한대
    - 최소값은 0
  - Multiclass SVM(support vector machine) Loss ( Hinge Loss )
    - SVM(support vector machine)
      - 기계학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델
      - 주로 분류와 회귀 분석을 위해 사용
      - 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을때
      - SVM알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다
- Use a loss function to quantify how good a value of W is
- Find a W that minimizes the loss function (optimization)
Regularization : Beyond Training Error
- 정규화 혹은 일반화 라고 함
- 모델 복잡도에 대한 패널티로 정규화를 통해 과대적합 Overffiting을 예방한다
- 일반화 Generalization 성능을 높이는데 도움을 준다
  - 방법론으로는
    - L1 Regularization
      - cost function 에 절대값을 더해줌
      - 이때 $λ$ (lambda) 는 학습률(Learning rate)같은 상수로 0에 가까울 수록 정규화의 효과는 없어짐
      - L1 정규화를 사용하는 회귀 모델을 Lasso Regression *(Least Absolute Shrinkage and Selection Operator)* 라고 함
    - L2 Regularization
      - 기존의 cost function 에 가중치의 제곱을 포함하여 더함
      - 가중치가 너무 크지 않은 방향으로 학습하게 됨 (Weight decay)
      - L2 정규화를 사용하는 회귀 모델을 Ridge Regression 이라고 부름
    - Dropout
    - Early stopping
    - 등이 있다
Cross-Entropy Loss 교차 엔트로피
- Multinomial Logistic Regression 다항 로지스틱 회귀 라고도 함
- 소프트맥스 함수 softmax function
  - 신경망에서 출력이 발화한다 / 안한다 2가지인 경우보다 더욱 많은 경우를 분류 및 예측해야 하는 문제가 더 많다
  - 이진분류 binary classification : 데이터를 2가지 분류하는 문제
    - 활성함수(activation) 시그모이드(sigmoid)함수 정의
      - 로지스틱 회귀분석 또는 뉴럴 네트워크의 이진분류 마지막 레이어의 활성함수로 사용한다
  - 소프트맥스 함수는 $n$ 차원 벡터 $x = (x_1,x_2,...x_n)$ 에 대하여
- sigmoid function
- 미분가능한 근사치 ?
- unnormalize log-probabilities / logits
  - exp
    - unnormalized probabilities ( Probabilities must be ≥ 0)
      - normalize
        
        probabilities ( probabilities must sum to 1
        
        compare
        
        Corrects probs
- 교차엔트로피 손실 → 실제 손실을 얻을 수 있는 유일한 방법 ?
- 교차엔트로피 손실 과 SVM 손실의 차이는 ?
P49 Q1: What happens to the loss if the scores for the car image change a bit?
- 손실loss이 전혀 없다
P50 Q2: What are the min and max possible loss?
- 손실은 무한하며 올바른 범주가 매우 낮을때 발생한다
P51 Q3: If all the scores were random, what loss would we expect?
P52 Q4: What would happen if the sum were over all classes? (including i = y i )
- 정답인 경우를 포함하여 계산하면 결과가 어떻게 될것인가?
P53 Q5: What if the loss used a mean instead of a sum?
- sum 이 아닌 mean을 사용하면 어떻게 되는가?
P54 Q6: What if we used this loss instead?
- 제곱을 사용하면 어떻게 되는가 ?
Loss Value의 최대값과 최대값은 어떻게 되는가 ?

추가학습

Scalars 스칼라

하나의 숫자 (하나의 크기량을 나타냄)
크기만 있고 방향을 가지지 않음

Vectors 벡터

스칼라와 달리 방향을 포함함
숫자들의 배열
순서대로 정렬됨

Basis 기저
어떤 벡터 공간의 기저는 그 벡터 공간을 선형 생성하는 선형독립인 벡터들이다
벡터 공간의 임의의 벡터에게 선형결합으로서 유일한 표현을 부여하는 벡터

행렬 (Matrices)

2차원 배열의 숫자로 각 요소를 2개의 인덱스로 구분

텐서 (Tensor)

3차원 이상의 배열

차원 (Dimension)

기저 백터의 갯수를 차원이라고 부름
3차원 공간 = 3개의 기저벡터를 필요

유클리드 벡터 Euclidean vector
유클리드 공간에서 방향과 크기를 모두 포함하는 기하학적 대상

유클리드 공간

두 점을 잇는 직석은 유일하다
두 점을 잇는 선분은 무한대로 늘릴 수 있다 → 직선으로 만들 수 있다
임의의 한 점 과 임의의 길이를 반지름으로 하는 원을 그릴 수 있다
직각은 모두 합동이다
직선 I와 그 직선밖의 한점 P 가 있을 때 , P를 지나면서 직선I에 평행한 직선은 유일하다

$ sudo park . sh

Searching for the Master Algorithm

이전 포스트

FEB 0.0.5

다음 포스트

FEB 0.0.5

FEB

Linear Classifier : Three Viewpoints

추가학습

FEB 0.0.5

FEB 0.0.6

0개의 댓글