문제 정의
데이터 : 기온에 따른 판매량
가정 : 선형적인 관계를 갖는다
목표 : 기운에 따른 판매량 예측하기
해결 방안
회귀 분석 알고리즘
회귀분석이란?
데이터를 설명하는 모델을 직선 형태로 가정 ( y절편과 기울기를 예측한다)
데이터 전처리 > 경사 하강법을 통해 단순 선형 회귀 모델 학습 > 새로운 데이터에 대한 예측
Loss 함수 이해하기
Loss 함수 줄이기
특징
가장 기초적이나 많이 사용됨
입력값이 1개인 경우에만 적용 가능 (feature가 여러 개이면 단순 선형 회귀에 적용 불가능)
입력값과 결과값의 관계를 알아보는 데 용이
두 변수 간의 관계를 직관적으로 해석하고자 하는 경우 활용
입력값 x(feature) 수가 2개 이상인 경우 활용할 수 있는 회귀 알고리즘
그래프가 선형으로 그려지지는 않음
Loss함수는 단순 선형 회귀와 같이 정의함
특징
여러 개의 입력값과 결과값의 관계 확인 가능
어떤 입력값이 결과값에 어떠한 영향을 미치는지 알 수 있다
여러 개의 입력값 사이 간의 상관 관계가 높을 경우 결과에 대한 신뢰성을 잃는다. ( 상관 관계가 높다 > 서로 값이 영향을 받는다 )
좋은 모델인지 평가하는 방법
목표에 얼마나 잘 도달했는지 ( 실측값과 모델이 예측하는 값의 차이에 기반한 평가 방법)
ex)RSS, MSE, MAE, MAPE, R^2
RSS 단순오차
실제 값과 예측 값의 단순 오차 제곱의 합
MSE(Mean Squared Error)
RSS를 data 수인 N으로 나눈 값
MAE(Mean Absolute Error)
square가 아닌 절댓값을 씌운 값
+MAE, MSE는 직관적인 해석이 가능하나 평균을 그대로 이용하기 때문에 입력 값의 크기에 의존적이고 절대적인 값과 비교가 불가능하다
ex) feature가 다름에 따라 수치의 범위가 달라지는데 이를 두 feature간의 비교가 불가능함