LG AImers - SL Foundation

해소리·2022년 7월 6일
0

LG AImers

목록 보기
6/13

Machine Learning

DATA로부터 내재된 패턴을 학습하는 과정

SUPERVISED LEARNING ( LABELDE DATA)

regression & classification의 차이점

출력이 연속 변수인지 이산변수인지에 따라서 구분

learning pipeline

sl 머신러닝은 model output과 정답과의 차이인 error를 통해서 그 error를 줄여가면서 학습이 진행

단계

feature selection, model selection, optimization 과정을 거치게 된다.

model selection

  • 풀고자 하는 문제에 가장 적합한 model을 선택하는 과정

model generalization

머신러닝은 그 자체로 data의 결핍으로 인한 불확실성을 포함하고 있다.

  • model이 학습 과정에서 우리가 관찰을 하지 못한 sample에 대해서도 바로 우수한 성능을 제공을 할 수가 있어야 한다.

error

에러는 각 샘플 별로 pointwise로 계산
label에서 y는 정답

대표적인 에러셋은 squared error
- model 출력과 정답과의 차이를 제곱하여 계산

binary error
- 내부의 logic을 판별하여 맞으면 0 틀리면 1인 함수

data sample에서 발생하는 모든 sample들의 pointwise error를 합쳐서 overall error를 계산 : loss function & cost function

E train

model을 주어진 data set에 맞추어 학습하는데 사용하는 error

  • 주어진 sample에서 model parameter를 최적화하도록 사용

E test

전체 data set에서 일부 sample을 따로 빼서 test sample을 정의
이 sample에서 나타나는 error가 E test

성공적인 목표

  1. E test == E train
    • failure: overfitting -> high variance
    • cure : regularizetion, more data
  2. E train == 0
    • failure : underfitting -> high bias
    • cure : optimization, more complex model

model 정확도를 높이는 방법

  1. bias를 낮춘다.
  2. model 일반성
  3. variance를 낮춘다.
  • 서로 상반된 해결책이 필요 Trade off
profile
문과생 데이터사이언티스트되기 프로젝트

0개의 댓글