05-01. 회귀(Regression) 소개

Park Jong Hun·2021년 2월 24일
0

위키북스의 파이썬 머신러닝 완벽 가이드 책을 토대로 공부한 내용입니다.


1. Introduction


회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 Galton이 수행한 연구에서 우래했다는 것이 일반론이다. 부모와 자식 간의 키의 상관관계를 분석했던 Galton은 부모의 키가 모두 클 때 자식의 키가 크긴 하지만 그렇다고 부모를 능가할 정도로 크지 않았고, 부모의 키가 작을 때 그 자식의 키가 작기는 하지만 부모보다는 큰 경향을 발견하였다. 키가 세대를 이어가며 무한정 커지거나 작아지는 것이 아니라는 것이다. 즉, 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙이 있다는 것이다. 회귀 분석은 이처럼 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법이다.

회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다. Y=W1X1+...+WnXnY=W_1*X_1+...+W_n*X_n이라는 선형 회귀식을 예로 들면 YY는 종속변수, XX는 독립변수를 의미하고, WW는 이 독립변수의 값에 영향을 미치는 회귀 계수(Regression coefficients)이다. 머신러닝 관점에서 보면 독립변수는 feature에 해당되며 종속변수는 label 값에 해당된다. 머신러닝 회귀 예측의 핵심은 주어진 feature와 label 데이터를 기반으로 학습하여 최적의 회귀 계수를 찾아내는 것이다.

회귀에서 가장 중요한 것은 회귀 계수이다. 회귀 계수가 선형일 때와 비선형일 때에 따라 선형 회귀와 비선형 회귀로 구분된다. 그리고 독립 변수가 한 개인지, 여러 개인 지에 따라 단일 회귀, 다중 회귀로 나뉜다. 지도 학습의 두 유형인 분류와 회귀의 가장 큰 차이는 예측값이 분류는 카테고리와 같은 이상형 클래스 값이고, 회귀는 연속형 숫자 값이 라는 것이다.

여러 회귀 중 선형 회귀가 가장 많이 사용되며, 선형 회귀는 실제 값과 예측 값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식이다. 선형 회귀 모델은 규제(Regularization) 방법에 따라 유형이 나뉠 수 있으며, 여기서 규제는 일반적인 선형 회귀의 과적합 문제를 해결하기 위해 회귀 계수에 패널티 값을 적용하는 것을 말한다.

  • 일반 선형 회귀 : 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않은 모델이다.
  • 릿지(Ridge) : 릿지 회귀는 선형 회귀에 L2 규제를 추가한 회귀 모델이다. 릿지 회귀는 L2 규제를 적용하는데, L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델이다.
  • 라쏘(Lasso) : 라쏘 회귀는 선형 회귀에 L1 규제를 적용한 방식이다. L2 규제가 회귀 계수 값의 크기를 줄이는 데 반해, L1 규제는 예측 영향력이 작은 feature의 회귀 계수를 0으로 만들어 회귀 예측 시 feature가 선택되지 않게 하는 것이다. 이러한 특성 때문에 L1 규제는 feature 선택 기능으로도 불린다.
  • 엘라스틱넷(ElasticNet) : L2, L1 규제를 함께 결합한 모델이다. 주로 feature가 많은 dataset에서 적용되며, L1 규제로 feature의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정한다.
  • 로지스틱 회귀(Logistic Regression) : 로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모델이다. 로지스틱 회귀는 매우 강력한 분류 알고리즘이다. 일반적으로 이진 분류 뿐만 아니라 희소 영역의 분류, 예를 들어 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보인다.
profile
NLP, AI, LLM, MLops

0개의 댓글