Regression
회귀
여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 하는 기법
머신러닝에서의 회귀
주어진 feature와 label 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것
회귀의 유형
- 독립변수의 개수에 따라
- 회귀 계수의 결합에 따라
- 선형 회귀 : 실제 값과 예측값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식
- 비선형 회귀
오류 합의 계산
- RSS(Residual Sum of Square) : 오류 값의 제곱을 구해서 더함.
- MAE(Mean Absolute Error) : 오류 값에 절댓값을 취해서 더함.
Gradient Descent
: 점진적으로 반복적인 계산을 통해 W parameter값(회귀 계수)을 업데이트하면서 오류 값이 최소가 되는 W parameter를 구하는 방식
Ridge
: 선형 회귀에 L2 규제를 추가한 회귀 모델
- L2 규제 : 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만드는 규제 모델
Lasso
: 선형 회귀에 L1 규제를 추가한 회귀 모델
- L1 규제 : 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것
ElasticNet
: L1, L2 규제를 함께 결합한 모델.
- 주로 feature가 많은 dataset에서 적용.
- L1 규제로 feature의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기 조정
Logistic Regression
: 회귀 모델이지만 분류에 사용되는 선형 모델.
- 이진 분류, 희소 영역 분류에서 높은 예측 성능을 보임.
Regression Tree