Day42

김재현·2023년 7월 19일

JUPYTER/DL/ML

목록 보기
19/73

p-value의 기준

  • P-value < 0.01 : 귀무가설이 옳을 확률이 0.01 이하 → 틀렸다(깐깐한 기준) --> 귀무가설 기각, 대립가설 채택
  • P-value < 0.05 : 귀무가설이 옳을 확률이 0.05 이하 → 틀렸다(일반적인 기준) --> 귀무가설 기각, 대립가설 채택
  • 0.05 < P-value < 0.1 : 애매한 경우(샘플링을 다시한다)
  • 0.1 < P-value : 귀무가설이 옳을 확률이 0.1 이상 → 귀무가설 기각 불가, 틀리지 않았다(맞다와 다름)

T검정

변수가 2개인 경우(2개까지 가능)


진도

변수의 개념을 수식으로 표현 : y=ax+b
독립변수 : 어떤 현상에 영향을 주는 값(x 값)
종속변수 : 결론으로 얻어내고자 하는 값(y 값)

F검정 (분산분석)

변수가 3개 이상인 경우(변수가 2개 초과인 경우 T검정을 수행하면 신뢰도가 급격히 감소)
가설 목적이 정해져 있다.

분산

데이터의 변동 정도를 의미하는 지표
분산이 크면 데이터의 산포도가 크다(데이터가 넓게 퍼져있음)


데이터 정규화

정규화, 표준화, 표준 정규화

정규화(Min-Max Scaler, Normalization)

모든 데이터의 범위를 0~1로 변환하는 것
정규화된값=(XXmin)/(XmaxXmin)정규화된 값 = (X - Xmin) / (Xmax - Xmin)
데이터의 분포를 유지하면서 데이터를 특정 범위로 축소시키는 데에 유용

표준화(StandardScaler, z-score)

데이터를 평균이 0, 표준편차가 1인 표준정규분포를 따르도록 변환
정규화된 값 = (X - 평균) / 표준편차
데이터를 정규분포에 근사시켜서 이상치에 덜 민감하게 만들어 줌

표준 정규화(RobustScaler)

이상치가 존재할 경우 사용
이상치(outliers)에 영향을 최소화하여 데이터를 스케일링
중앙값사분위수를 사용하여 데이터를 스케일링
(X - median) / iqr

0개의 댓글