OLS(Ordinary Least Squares)
- MSE (Mean Squared Error)를 최소화
Cross-validation
- Train set과 validation set의 구성을 여러번 분할
- overfitting을 방지
Regularization
LASSO
- OLS loss function + 절댓값
- 0에 수렴하면 feature가 target에 영향을 주는지 아닌지 알 수 있음
Ridge
머신러닝 면접 질문
- 회귀 / 분류시 알맞은 metric은 무엇일까?
- 분류의 metric으로는 정확도, 오차행렬, 정밀도, 재현율, F1-Score 그리고 ROC-AUC 등이 있다.
- 회귀시 metric은 MSE, MAE, RMSE, RMSLE, R squared 등이 있다.
- L1, L2 정규화에 대해 설명해주세요.
- L1 정규화는 선형 회귀 분석에서 LASSO를 사용, L2 정규화는 Ridge를 사용
- L1 정규화는 특정 피쳐의 값이 매우 낮은 경우 0으로 수렴
- L2 정규화는 특정 피쳐의 값이 매우 낮아도 0으로 수렴되지는 않고 가까워짐. L1 정규화에 비해 강하지 않게 정규화
- Cross Validation은 무엇이고 어떻게 해야하나요?
- 모델의 오버피팅을 방지하기 위해서 train test로만 데이터셋을 나누지 않고 validation set 을 구성하는것
- validation set을 만드는 홀드아웃 cross validation. k개의 train-val 구성을 만드는 k-fold cross validation 그리고 클래스 비율을 고려하는 stratified k-fold validation 으로 나뉨
- OLS(ordinary least squre) regression의 공식은 무엇인가요?
i=1∑n(yi−y^i)2
Reference
Github, ai-tech-interview
https://github.com/boostcamp-ai-tech-4/ai-tech-interview/blob/main/answers/2-machine-learning.md#1
Datacamp
https://app.datacamp.com/learn