AIB Section2. n212 다중선형회귀(02/23)

Seo_Gury·2022년 2월 23일

AIB 12기

목록 보기
6/16
post-thumbnail

다중선형회귀

1. test, train data
2. 다중선형회귀
3. 평가지표
4. 과적합, 과소적합
1. test, train data
분리하는 이유 : 학습에 사용된 train data를 test에도 사용하면 안되고
학습에 사용되지 않은 데이터로 성능테스트를 해야하기 떄문이다.
test = df[df['열'] > '조건']
2. 다중선형회귀
다중선형회귀 : 독립변수가 2개이상인 선형회귀모형
#다중선형회귀

#기준모델
train['target'].mean()

#타겟, 특성 설정
target = 'y'

#단순과의 차이점은 feature가 2개 이상이다.
feature = ['x1', 'x2']

y_train = train[target]
y_test = test[target] 

x_train = train[feature]
x_test = test[feature]

#모델 학습
model = LinearRegression()

model.fit(x_train,y_train)

#예측
y_pred = model.predict(x_test)
3. 평가지표
평가지표 : MSE, MAE, RMSE,  R2
MAE (Mean Absolute Error)
	직관적이며 y와 단위가 같다. MSE보다 민감하지 않다.

MSE (Mean square Error)
	직관적이지 않고 이상치에 민감하다. 이상치를 찾거나 이상치에 관련된 
것을 할 때 사용하면 좋을듯하다.

RMSE (Root Mean square Error)
	MSE에 제곱근을 한 것이다. MSE보다 이상치에 덜 민감하다. 하지만 
MAE보다는 민감하다. MSE의 이상치에 대한 민감도를 줄인 지표이다.
y와 단위가 같다. 

R2 (결정계수)
	모델의 설명도, 정확도에 대한 score이다. 1에 가까울수록 좋다. 
    
4. 과적합, 과소적합
과적합:
	모델이 학습데이터를 너무 과도하게 학습하여 일반화를 못해 테스트 
데이터와의 오차가 커지는 현상

과소적합:
	모델이 학습데이터를 제대로 학습하지 못해 과적합도 못하고 일반화성질
도 갖지 못하여 훈련/테스트 데이터 모두에서 오차가 크게 나오는 경우를 말합니다. 
	
분산/편향 트레이트 오프

분산이 높고 편향이 낮으면 과적합 상태
분산이 낮고 편향이 높으면 과소적합 상태
과소적합 vs 과적합

profile
미래의 데이터 분석가~@

0개의 댓글