지도학습에는 대표적으로 분류와 회귀기법이 있다.
회귀
Lasso, Ridge, ElasticNet-L1, L2규제를 적용한 선형 알고리즘, 테디노트
x1, x2, ..., xk가 어떤 조건일 때, 각 조건의 영향력 B1, B2, ..., Bk를 고려하여 해당 조건에서의 평균값을 계산하는 방식. e는 오차항으로 이론적으로 평균이 0이고 정규 분포를 띄는 값이다.
y = h(x1, x2, x3, ..., xk : B1, B2, B3, ..., Bk) + e
회귀 분석을 한다는 것은 h()함수가 무엇인지를 찾는 과정이다.
== y를 찾기 위해 각 조건에 부여되는 가중치를 찾는 과정이다.
선형 vs 비선형(대표 : 딥러닝)을 결정하는 것은 변수가 아니라 회귀 계수(우리가 추정해야 하는 미지수)
baseline : 보통 타겟 변수의 평균값
데이터의 분포의 특징에 따라 어떠한 회귀법을 사용할지 선택.
독립변수의 수, 종속 변수의 유형, 회귀선의 형태를 고려해서 선택해야한다.
평가지표 : R2 Score (결정계수), MSE(Mean Squared Error), MAE (Mean Absolute Error), RMSE (Root Mean Squared Error)
Linear Regression ( Simple Regression )
독립 변수와 종속 변수 사이에 선형 관계가 있을 경우 사용
- 최소제곱법을 활용
- 종속 변수 Y는 연속적, 독립 변수 X는 연속적/이산적
- 회귀선 : 선형. Y = a*X + b
- 평가지표 : LSM(Least Square Method)
- 단점 : multicollinearity, autocorrelation, heteroskedasticity
- 복수의 독립 변수의 경우 중요한 독립 변수를 선택하여 변수의 수를 줄여 훈련한다.( forward selection, backward elimination and stepwise approach )
multiple-regression
Logistic Regression
T/F인지 확률을 찾는데 사용(종속 변수Y가 이진값일 때 사용)
- 종속 변수 Y는 이산적(이진값), 독립 변수 X는 연속적/이산적
- 분류 문제에 사용됨
- overfitting이나 underfitting 주의 : 중요한 변수를 모두 포함해서 없앤다.
- 다중 공선성 제거 필요 : 독립 변수 X간에 상관관계가 있으면 안된다.
- Y가 다중 class이면, 다항 로지스틱 회귀를 이용할 수 있다.
Polynomial Regression
y = a*x^2 + b 처럼 방정식이 다항식(곡선)이 되는 회귀법
- 더 낮은 차수의 오차를 얻기 위해 고차 다항식을 사용할 수 있지만 overfitting을 초래할 수 있다.
Stepwise Regression :
정해진 기준에 따라 하나씩 공변수를 추가/삭제하여 회귀 모델에 적합(적용)하는 방식으로 이루어진다.
- 정해진 기준 : Forward selection, Backward elimination
- Forward selection : 가장 중요한 변수부터 시작하고 단계별로 변수를 추가
- Backward elimination : 모든 변수를 적용 후, 가장 덜 중요한 변수를 제거
- 최소 개수의 예측 변수로 최대 예측 효율 내기
- 자동 독립 변수의 선택
ridge-regression
- 선형 회귀 모델에 L2 Regularizaition를 더한 모델
- data가 다중공선성을 가질 때(독립 변수간 높은 상관관계) 사용하는 기술
- ridge는 다중공선성 문제를 shrinkage parameter λ를 통해 해결
- 회귀 추정치에 일정 정도의 값을 추가하여 표준 오차를 줄임 : 다중공선성을 가질 때, least squares estimates (OLS, 최소 제곱 추정)이 편파적이지 않지만, 분산이 커져서 관측값이 실제 값과 많은 차이를 가지기 때문.
- 예측 오류 : 편향(biase)나 편차(variance)로 인해 발생될 수 있다.
Lasso Regression
- 선형 회귀 모델에 L1-Regularizaition를 더한 모델
- 회귀 계수의 절대 크기에 불이익을 줌. panalty 인자에서 절대값을 사용
- 선형 회귀 모델의 가변성을 줄이고 정확도를 향상
ElasticNet Regression
Ridge-regression + Lasso Regression 기법
- 선형 회귀 모델에 L1, L2 Regularizaition를 더한 모델
Decision Trees
Decision Trees : 설명이 중요할 때 매우 유용. 분류/회귀 모두 가능
회귀 모델의 종류와 특징, DANBI
Regression 종류 및 특징, White Whale
분류 ( Classification )
baseline : 보통 타겟 변수에서 가장 빈번하게 나타나는 범주
나이브 베이즈(Naive Bayes)
로지스틱 회귀(Logistic Regression)
결정 트리(Decision Trees)
결정 트리(Decision Trees) : 설명이 중요할 때 매우 유용. 분류/회귀 모두 가능
logistic-regression
종속 변수가 범주형 데이터를 대상으로 하며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 분류 기법으로도 볼 수 있다.
서포트 벡터 머신 ( Suppot Vector Machine, SVM )
최소 근접 ( K-Nearest Neighbor, KNN ) :
Clustering. 게으른 학습기(lazy learner)로, 데이터에서 판별함수를 학습하는 대신 train dataset을 memory에 저장할 뿐 학습하지 않는다. 가까운 K개의 점의 label을 다수결투표하여 새로 입력된 data의 label을 추론한다.
신경망(ANN)
앙상블(Ensemble)
앙상블을 통한 분류란 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합하여 비교적 정확한 최종 예측을 도출하는 기법. 정형 데이터의 분류와 회귀 분야에서 성능이 뛰어나다.
random-forests
Boosting ML Algorithm 모델 종류
- AdaBoost (Adaptive Boosting)
- GBM(Gradient Boosting Machine)
- XGBoost(eXtra Gradient Boost)
- LightGBM (Light Gradient Boost)