[데이터사이언스] Diary - (13)

Pream·2022년 2월 22일
0

주제 : 단순선형회귀

*Wrap up:

Tablar Data 특징 3가지 : observation , feature , relative data table

지도학습 : 분류 vs 회귀

분류와 회귀의 차이는?

분류는 예측하고자 하는 결과값이 숫자가 아닌 범주형 데이터일때 사용함
Ex)사람들의 공부시간에 따른 시험 합격여부 , 양성 & 음성사진을 통한 악성 종양 여부확인

회귀는 예측하고자 하는 결과값이 숫자형 데이터일때 사용함
Ex)학생들의 나이에 따른 키 , 온도에 따른 그날 제품 판매량 변화

기준모델 : 예측모델을 만들기 전에 가장 간단,직관적,최소한의 성능을 나타내는 기준이 되는 모델을 기준모델이라 한다. 문제별로 기준모델은 보통 다음과 같이 설정한다.

1.분류문제 : 타깃의 최빈 클래스
2.회귀문제 : 타겟의 평균값
3.시계열회귀문제 : 이전 타임스탬프의 값

회귀예측모델 :

두 변수의 실제값들의 관계( x가 증가함에 따른 y의 값과 같은)를 알고 싶을때 가장 잘 맞는 직선을 그어주면 된다.
근데 가장 잘 맞는 직선은 어떻게 구할것인가?
모든 데이터를 잇는 선을 그리면 되지 않을까?
만약 모든 데이터를 잇는 선을 그리면 어떤 문제가 있을까?
모든 데이터를 잇는 선을 그리게 된다면 당연히 직선으로 설명되는 2차함수는 아닐것이다. 그보다 훨씬 복잡해서 연산에 많은 제약이 따를것이다.
선형회귀모델은 이보다 훨씬 단순하게 두 변수간의 관계를 얻을수 있는 방법이다.
그렇다면 어떻게 이 모델을 만들수 있을까?
답은 최소제곱회귀(OLS)방법을 이용해서 구한다.
최소제곱회귀는 예측값과 관측값의 차이(잔차)의 제곱들의 합인 값(비용함수)을 최소화 시키는 방법을 말한다.
머신러닝에서는 이런 비용함수를 최소화하는 모델을 찾는 과정을 “학습”한다 라고 말한다.

선형회귀는 독립변수(independent variable, x)와 종속변수(dependent variable , y)간의 관계를 요약해 준다.

독립변수 : 예측(Predictor)변수 , 설명(Explanatory) , 특성(feature) 등으로 불린다.
종속변수 : 반응(Response)변수, 레이블(Label), 타겟(Target)등으로 불린다.

LinearRegression의 coef , intercept 함수를 이용해 각각 기울기, y절편을 구할수 있다.

profile
예비 데이터개발자

0개의 댓글

관련 채용 정보