지도학습은 두 가지 유형으로 나눌 수 있다.
분류
예측값이 카테고리 같은 이산형 클래스 값
회귀
예측값이 연속형 숫자 값
통계학 관점에서의 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다.
가령 아파트 방 개수, 방 크기, 주변 학군, 역 위치 등 여러 개의 독립변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지 모델링하고 예측하는 과정이 회귀라 할 수 있겠다.
선형 회귀식을 예로 들면 아래와 같이 표현할 수 있다. 이때, Y는 종속변수, X는 독립변수를 의미하며, W는 독립변수의 값에 영향을 미치는 회귀 계수 (Regression coefficients) 이다.
Y= W1 * X1 + W2 * X2 + ... + Wn * Xn
머신러닝 관점에서 이를 바라보면, 독립변수는 피처에 해당되며, 종속변수는 결정 값에 해당된다. 따라서 머신러닝 회귀 예측의 핵심은 "주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾는 것!" 이라 할 수 있겠다.
회귀는 회귀 계수의 선형 / 비선형의 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다.
여러 가지 회귀 모델 중 선형 회귀가 가장 많이 사용된다. 선형 회귀는 실제 값과 예측 값의 차이를 나타내는 '오류의 제곱 합'을 최소화하는 직선형 회귀선을 최적화하는 방식이다.
일반 선형 회귀
예측 값과 실제 값의 RSS (Residual Sum of Squares) 를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제 (Regularization) 을 적용하지 않은 모델임
릿지 (Ridge) 회귀
릿지 회귀는 선형 회귀에 L2 규제를 가한 회귀 모델임
L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 줄이기 위해 회귀 계수 값을 더 작게 만드는 규제임
라쏘 (Lasso) 회귀
라쏘 회귀는 선형 회귀에 L1 규제를 가한 회귀 모델임
L1 규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않도록 하는 것을 의미함 = 피처 선택 기능을 수행한다고 말 할 수 있음
엘라스틱넷 (ElasticNet) 회귀
L1, L2 규제를 함께 결합한 모델임
주로 피처가 많은 데이터셋에 적용되며, L1 규제로는 피처 개수를 줄이고, L2 규제로는 계수 크기를 조정함
로지스틱 (Logistic) 회귀
로지스틱 회귀는 회귀라는 이름이 붙었지만, 사실 분류에 사용되는 선형 모델! 즉, 로지스틱 회귀는 매우 강력한 분류 모델이다!
이진 분류뿐만 아니라 희소 영역의 분류 (예 - 텍스트 분류) 에서 뛰어난 예측 성능을 보임