Simple-regression 단순선형회귀

1-1. 단순 선형회귀

회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수위 개수에 따라 여러가지 유형으로 나눌수 있음

독립변수 갯수
1개: 단일회귀
2개이상: 다중 회귀

회귀 계수의 결합
선형: 선형회귀
비선형: 비선형회귀

단순선형회귀란?
독립변수 1개, 종속변수도 1개인 선형회귀
예) 주택 가격이 주택의 크기로만 결정될 경우 주택 크기가 커질수록 가격이 높아짐, 그렇다면 주택 가격은 주택 크기에 대해 선형(직선형태)를 가짐

잔차: 실제 값과 회귀 모델(직선)의 차이에 따른 오류를 말함

잔차제곱합(RSS)
잔차제곱합이란?
오류값의 제곱을 구해서 더하는 방식, 단순 오차 제곱 합이라고도 함
즉, 최적의 회귀모델을 만든다는 것은 전체 데이터의 잔차(오류 값)합이 최소가 되는 모델을 만든다는 것임

잔차제곱합은 회귀식의 독립변수 X, 종속변수Y가 중심변수가 아니라 W변수(회귀 계수)가 중심 변수임을 인지하는 것이 중요

평균제곱오차(MSE)
RSS를 데이터의 개수만큼 나눈 값
-이상치를 잡는데 효과적임(틀린 것을 더 많이 틀렸다고 알려줌)

평균 절댓값 오차(MAE)
예측값과 실제값의 오차의 절대값의 평균
-변동치가 큰 지표와 낮은 지표를 같이 예측하는 데 효과적임
but, 데이터 크기에 의존함


Supervised learning 지도학습

1-2. 지도학습


금일은 지도학습에는 분류, 회귀가 있으며 오늘은 회귀모델 중 단순선형회귀모델에 대해서 배웠다.

1.3. 회귀모델의 기준모델 설정
분류문제: 타겟의 최빈 클래스
회귀문제: 타겟의 평균값

머신러닝 모델

2-1. 머신러닝 모델 진행 과정

지도 학습(supervised)은 ox로 라벨링 되었음
비지도 학습(unsupervised)은 라벨링이 없이 가까이 군집한 것끼리 묶인것으로 보임

아래에 좀더 구체적인 예시로 확인해보자!

또다른 예시: 사진을 주고 이게 오리다. 오리가 아니다 여부를 가린다고 했을때

지도학습(supervised)
왼쪽 상단(training set:정답이 있는걸 넣어서 트레이닝시켜서)에는 오리, 오리, 오리X, 오리X 이렇게 지도학습하고 예측모델을 함
왼쪽 아래 이미지(test set:예측 모델이 잘 동작하는지 알려고 하는 것)로 모델에 넣으면 오리라고 판정함
*보통 데이터가 100개 정도 있을때 트레이닝 1/2~2/3까지 할당함
테스트 세트는 1/10~1/3까지 할당함
why? 오버피팅(오리사진을 외워서 오리를 100% 맞추는거)없으려고
그래서 테스트세트는 학습할때 넣지 않고 진행함

비지도학습(unsupervised)
레이블 없이 학습하는 것
[이미지, 생긴것끼리 뭉쳐보자]했더니 오리 세마리가 한그룹, 토끼 한 그룹, 고슴도치 한그룹으로 묶어서 3개의 클러스터 생성됨
라벨이 없어서 오리인지 토끼인지 모르고 오로지 데이터로만 알고리즘을 생성해서 만들었기 때문에 비지도학습이 굉장히 유용하다

profile
안녕하세요. 기억보다 기록을 믿는 레나입니다!

0개의 댓글