[머신러닝] 단순 선형회귀

ch.2·2024년 8월 23일
0

Python

목록 보기
3/4
post-thumbnail

데이터 분류

범주형

  • 명목형

: 자료의 순서가 의미 없는 데이터
e.g) 성별 색깔

  • 순서형

: 자료의 순서에 의미가 있는 데이터
e.g) 만족도 성적

수치형

  • 연속형

: 두 개의 값이 무한한 개수로 나누어진 데이터
소수점 존재

  • 이산형

: 두 개의 값이 유한한 개수로 나누어진 데이터
소수점 존재 X


변주형 변수를 인코딩시, 정보 손실이 일어난다.
만약 변수가 서울 경기 강원 충북 등 다양한 것을 숫자로 치환한다면, 그 지역이 가지고 있는 특성이 있을 것이다.
그에 대한 y를 예측할 때 정보 손실이 발생하는 것이다.
(하지만 그 특성이 어떤 특성인지 우리는 알지 못한다.)


머신러닝/딥러닝 모델에서 사용하는 선형회귀 식


Y=w1X+w0\LARGE Y = w1X + w0


  • YY: 종속 변수
  • XX: 독립 변수
  • ww: 가중치, 회귀계수 .coef_
  • bb: 편향(Bias), .intercept_

오차항은 다루지 않는다.


선형회귀 만의 평가 지표


R2=(예상치평균)2의합(실제값평균)2의합=SSRSST\large R^2 = \dfrac{(예상치 - 평균)^2 의 합}{(실제값 - 평균)^2 의 합} = \dfrac{SSR}{SST}


  • R2R^2 값은 1이 이상적인 값
  • R2R^2 값이 0이라면 모델이 데이터의 변동을 전혀 설명하지 못한다는 의미
    (평균으로 예측하면 0이 나온다.)

사용 시 주의해야 할 점

  • R2R^2 값은 독립 변수가 추가될 때마다 증가하는 경향이 있다.
  • R2R^2 가 높다고 해서 반드시 좋은 모델은 아니며, 다른 평가 지표와 함께 고려해야 한다.
profile
데이터 분석 공부중

0개의 댓글