



지도학습 - 분류
- 정답을 알려주고(=라벨을 붙임) 학습을 하고 새로운 데이터를 줌.
 
- 내가 가지고 있는 데이터로 먼저 학습을 시킴. 학습을 시킨 모델에게 새로운 데이터를 주는 것이다.
 
- 카테고리처럼 나눠짐.

 
지도학습 - 회귀
- 출력이 연속적인 값. 연속된 범위 안에서 어떤 값을 줬을 때에 대한 결과 값.

 
비지도학습



회귀



선형회귀
- 내가 가지고있는 데이터와 가장 잘 맞는 직선을 찾는 것.
 
- 그 직선을 Hypothesis라고 부른다.

 
OLS: Ordinary Linear Least Square
- 최소자승법을 사용하여 선형 회귀 모델을 적합하는 통계 방법.
 
- OLS는 데이터를 설명하는 직선을 찾기 위해 사용되며, 이 직선은 종속 변수와 독립 변수 사이의 관계를 설명한다.
 
- OLS의 목적은 데이터 포인트와 회귀 직선 사이의 차이(잔차, residuals)의 제곱합을 최소화하는 직선을 찾는 것이다.
이때, 잔차는 실제 관측값과 모델에서 예측한 값의 차이 



A의 역행렬을 양쪽에 곱해주면 X를 바로 구할 수 있지만
A가 정방행렬이 아니어서 역행렬을 양쪽에 곱해줄 수 없음.
그래서 A의 행과 열을 바꾼 A^T를 곱하면 정방행렬이 되어 역행렬을 구할 수 있음.







모델평가
에러(E)는 실제 값 - 예측값(우리가 구한 모델에 값을 넣은 값) 에 제곱을 하든 절대값을 하든 함.

OLS 실습

- statsmodels: 통계 모델링 및 회귀 분석에 사용되는 파이썬 라이브러리. 
statsmodels.formula.api를 호출해 회귀모델을 정의하고 실행할 수 있게 함. 
- ols(): ols 기법의 선형회귀 모델을 생성하는 함수
 
- formula='y ~ x' :  y를 종속 변수로, x를 독립 변수로 설정한 것
 
- .fit(): ols 함수는 모델을 정의만 할 뿐, 아직 데이터를 통해 학습된 모델은 아니다. 
.fit() 메서드를 호출하여 주어진 데이터를 사용해 모델을 학습함.

 

잔차 평가 residue
- 잔차: 내 모델과 실제 값과의 차이
 
- 잔차는 평균이 0인 정규분포를 따르는 것 이어야 함.
 
- 잔차 평가는 잔차의 평균이 0이고 정규분포를 따르는지 확인.
 
잔차 확인: resid

결정계수 R-Squared
- 가운데 녹색선이 평균
 
- 분모: 실제값과 평균의 차이, 분자: 예측값과 평균의 차이

 
