[머신러닝]선형회귀

김민주·2024년 12월 15일

회귀

데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법
MSE를 최소화 하는 방향으로 진행

여러 개의 독립변수, 한 개의 종속변수 간의 상관관계를 모델링

회귀 계수

회귀는 회귀 계수의 선형/비선형, 독립변수의 개수, 종속변수의 개수에 따라 여러가지의 회귀 모델로 나뉨

선형 회귀 모델

선형 회귀 모델은 규제 방법에 따라 별도의 유형으로 나뉨

규제

일반적인 선형 회귀의 과적합 문제를 해결하기 위해 회귀 계수에 페널티 값을 적용

선형 회귀 모델의 종류

일반 선형 회귀

예측값과 실제값의 RSS를 최소화할 수 있도록 회귀 계수 최적화
규제를 적용하지 않음

릿지(Ridge) - L2 norm

선형 회귀에 L2 규제를 추가한 회귀 모델
L2 규제는 가중치의 제곱합에 비례하는 패널티를 부과하여 모델을 규제
L2 규제는 가중치를 0에 가깝게 만들지만 완전히 0으로 만들지는 않음 모델의 일반화 성능 증가

  • L2규제:
    상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀 계수값을 더 작게 만듦
    모든 특성이 적절히 고려되도록.

라쏘(Lasso) - L1 norm

선형 회귀에 L1 규제를 추가한 회귀 모델
목표 함수에 가중치의 절대값의 합을 추가하여 이를 최소화하는 방향으로 학습됨
일부 가중치를 완전히 0으로 축소하고 제거.
특성 선택(Feature Selection)
L2는 회귀 계수 값의 크기 줄이지만, L1은 예측 영향력이 작은 피처의 회귀 계수를 0으로. 예측 시 피처가 선택되지 않게
특히 특성이 많은 데이터셋에서 유용.


L1규제를 적용한 것은 가중치가 0으로 가는 것을 볼 수 있다.
L2규제를 적용한 것은 0으로 수렴하되, 0으로 가진 않는다.

엘라스틱넷(ElasticNet)

L2, L1규제 함께 결합
피처가 많은 데이터셋에서 적용. L1규제로 피처 개수 줄이고 L2로 계수 값의 크기 조정

로지스틱 회귀(logistic Regression)

로지스틱 회귀분석은 종속변수가 이항분포를 따른다고 가정, link function으로 logit 함수를 활용한 케이스

이항분류? 0/1로 나눠서 생각할 수 있다.
ex) 양성/음성, 여자/남자..
이항분포?
B(n, p)형태로 성공/실패 확률을 다룸
p = 성공확률

profile
mingdue02

1개의 댓글

comment-user-thumbnail
2024년 12월 17일

💪

답글 달기