AI 부트캠프 2기 - Day 24

Jeongwoo Lee·2021년 4월 6일

AI 부트캠프

Codestates AI Bootcamp

목록 보기

19/19

[Today I Learned]

Warm-up

$R^2$ = $\frac{\sum{(\hat{y} - \bar{y})^2}}{\sum{(y -\bar{y})2}}$
- 0 ~ 1 사이의 값을 가짐
- $R^2$ 값이 1에 가까울수록 설명력이 높다
Standard Error of the Estimate
- $\sqrt{\frac{\sum{(\bar{y}-y)^2}}{n-2}}$
Training & Test
훈련 데이터와 테스트 데이터를 나누는 이유
- 일반화가 잘된 모델을 만들기 위해 (과적합 방지)
Bias & Variance

Session - n212

훈련 데이터와 테스트 데이터 나누는 법
- sample 메소드
- scikit-learn

from sklearn.model_selection import train_test_split

#X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

다중선형회귀모델 학습 (scikit-learn 활용)
- 선형회귀는 다른 모델에 비해 상대적으로 학습이 빠르고 설명력이 강하다.
- 과소적합이 잘 일어난다.
회귀모델의 평가지표
- $MSE$ : $(실제값 - 예측값)^2$ 의 평균
  - 기본적으로 많이 쓰임
  - 단위 스케일 변화
  - 이상치에 민감
- $MAE$ : $|실제값 - 예측값|$ 의 평균
  - 단위 스케일 변화 없음
- $RMSE$ : $\sqrt{MSE}$
  - $MSE$ 단점 개선
- $R^2$ : $\frac{SSR}{SST}$
  - 회귀 모델의 설명력을 표현
  - $SSE$ : $(실제값-예측값)^2$ 의 합
  - $SSR$ : $(평균값-예측값)^2$ 의 합
  - $SST$ : $SSE + SSR$
과적합 & 과소적합
- 일반화
- 분산 & 편향
  - 분산이 높음 = 과적합
  - 편향이 높은 = 과소적합
  - 분산/편향 트레이드 오프 관계
- 충분한 데이터가 필요
- 모델의 복잡도가 올라갈수록 그만큼 과적합이 될 가능성도 올라감
- 과소적합보다는 과적합의 경우가 모델 학습에서는 더 낫다.
Plotly

과제

회귀분석에서 변수선택 방법
- 전진선택법
- 후진선택법
- 단계선택법

Jeongwoo Lee

열심히 하자

이전 포스트

AI 부트캠프 2기 - Day 24

Codestates AI Bootcamp

[Today I Learned]

Warm-up

Session - n212

과제

AI 부트캠프 2기 - Day 23

0개의 댓글