2.6 정규분포
1. 용어정리
- 오차(error): 데이터 포인트와 예측값 혹은 평균 사이의 차이
- 표준화(정규화)하다(standardize): 평균을 빼고 표준편차로 나눈다.
- z 점수(z-score): 개별 데이터 포인트를 정규화한 결과
- 표준정규분포(standard normal distribution): 평균 = 0, 표준편차 = 1 인 정규분포
- QQ 그림 (QQ-plot): 표본분포가 특정 분포(예: 정규분포)에 얼마나 가까운지를 보여주는 그림
2.6.1 표준정규분포와 QQ 그림
1. 실습 예제
import matplotlib.pyplot as plt
import scipy.stats as stats
fig, ax = plt.subplots(figsize = (4,4))
norm_sample = stats.norm.rvs(size = 100)
stats.probplot(norm_sample, plot = ax)
- 결과
x축은 해당 분위수, y축은 z점수
2. 정규분포의 목적
- 단지 비교를 목적으로 데이터를 표준정규분포로 만드는 것
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.