Regreesion, 선형 회귀 알아보기

Tae-Kyun Kim·2022년 1월 17일
0

OLS(Ordinary Least Squares)

  • MSE (Mean Squared Error)를 최소화

Cross-validation

  • Train set과 validation set의 구성을 여러번 분할
  • overfitting을 방지

Regularization

LASSO

  • OLS loss function + 절댓값
  • 0에 수렴하면 feature가 target에 영향을 주는지 아닌지 알 수 있음

Ridge

  • OLS loss fuction + 제곱

머신러닝 면접 질문

  • 회귀 / 분류시 알맞은 metric은 무엇일까?
    • 분류의 metric으로는 정확도, 오차행렬, 정밀도, 재현율, F1-Score 그리고 ROC-AUC 등이 있다.
    • 회귀시 metric은 MSE, MAE, RMSE, RMSLE, R squared 등이 있다.
  • L1, L2 정규화에 대해 설명해주세요.
    • L1 정규화는 선형 회귀 분석에서 LASSO를 사용, L2 정규화는 Ridge를 사용
    • L1 정규화는 특정 피쳐의 값이 매우 낮은 경우 0으로 수렴
    • L2 정규화는 특정 피쳐의 값이 매우 낮아도 0으로 수렴되지는 않고 가까워짐. L1 정규화에 비해 강하지 않게 정규화
  • Cross Validation은 무엇이고 어떻게 해야하나요?
    • 모델의 오버피팅을 방지하기 위해서 train test로만 데이터셋을 나누지 않고 validation set 을 구성하는것
    • validation set을 만드는 홀드아웃 cross validation. k개의 train-val 구성을 만드는 k-fold cross validation 그리고 클래스 비율을 고려하는 stratified k-fold validation 으로 나뉨
  • OLS(ordinary least squre) regression의 공식은 무엇인가요?
    i=1n(yiy^i)2\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}

Reference

Github, ai-tech-interview

https://github.com/boostcamp-ai-tech-4/ai-tech-interview/blob/main/answers/2-machine-learning.md#1

Datacamp

https://app.datacamp.com/learn

0개의 댓글