기초통계 (14) 정규분포(정규화,표준화)

목록 보기

20/41

종 모양의 정규분포는 전통적인 통계의 상징이다. 표본통계량 분포가 보통 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었다.

<정규화>

<표준화>

데이터를 0을(평균) 중심으로 양쪽으로 데이터를 분포시키는 방법(표준화를 하게 되면 각 데이터들은 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로 변환된다)
평균0 표준편차가 1
식(z-score표준화) : (측정값 - 평균) / (표준편차)

표준정규분포는 x축의 단위가 평균의 표준편차로 표현되는 정규분포를 말한다. 데이터를 표준정규분포와 비교하려면 데이터에서 평균을 뺀 다음 표준편차로 나누면 된다(표준화). 그리고 이렇게 변환된 값을 z-score 라고 하며, 정규분포를 z분포 라고 한다.
QQ그림은 표본이 특정분포(예 : 정규분포)에 얼마나 가까운 형태인지 시각적으로 확인하기 위해서 사용된다.
z-score를 오름차순으로 정렬후 각 값의 z-score를 y축에 표시하고 정규분포에서의 해당 분위수를 x축에 표시한다.
점들이 대략 대각선 위에 놓인다면 표본분포가 정규분포에 가까운것으로 간주할 수 있다.
python에서는 scipy.stats.probplot을 통해 QQ-plot을 만들 수 있다.

fig, ax = plt.subplots(figsize = (4, 4))
norm_sample = stats.norm.rvs(size = 100)
stats.probplot(norm_sample, plot = ax)

>>>

주의할점
데이터를 z-score로 변환(즉, 데이터를 표준화 또는 정규화)한다고 해서 데이터가 정규분포가 되는 것은 아니다. 단지 비교를 목적으로 데이털르 표준정규분포와 같은 척도로 만드는 것 뿐이다.

문제를해결하는도구로서의"데이터"

통계