개념
- 표준편차를 단위로 보았을 때 측정치가 평균에서 얼만큼 떨어져있는가를 표현
- 평균과 표준편차를 이용
예시
어떤 시험의 평균 점수가 70점이고, 표준 편차가 10점이라고 해보자. 80점을 받은 사람은 평균보다 10점 높고, 60점을 받은 사람은 평균보다 10점 낮다.
이걸 10점 높다/낮다로 표현하는 대신
✅ “평균에서 표준편차 기준으로 얼마나 떨어져 있는지”
를 보고 싶어서 만든게 Z-Score이다.
공식
z=σx−μ
- 𝑥 : 내가 가진 값 (예: 내 점수)
- 𝞵: 평균 (mean)
- σ: 표준편차 (standard deviation)
왜 쓰는거지 ?
-
단위/스케일이 다른 것끼리 비교할 수 있음
만약
- 수학시험 : 평균 70, 표준편차 10, 내 점수 85점
- 영어 시험 : 평균 80, 표준편차 5, 내 점수 88점
이라면, 그냥 점수만 보았을 때 수학은 평균보다 15점 높고, 영어는 평균보다 8점 높다. 단순히 생각했을 때 수학을 더 잘 본 것 같지만, 같이 시험본 사람들과 비교해보고 싶다면?(분포를 반영하고 싶다면)
- 수학의 z-score : 85-70/10 = 1.5
- 영어의 z-score : 88-80/5 = 1.6
→ 영어의 z-score가 더 크기 때문에 그 시험을 본 사람들 중에서 상대적으로는 영어를 더 잘보았다고 볼 수 있음.
-
이상치 찾기
보통 정규분포를 가정하면,
- z가 +-1 이내 : 전체의 약 68%
- z가 +-2 이내 : 약 95%
- z가 +-3이내 : 약 99.7%
그래서 z값이 |3| 을 벗어나는 값은 평균에서 너무 멀리떨어진 값 = 이상치일 가능성 ⬆️
-
정규분포에서 확률(p-value)랑 연결
만약 어떤 데이터가 정규분포를 따른다고 가정하면,
- z-score를 통해 “이 값보다 크거나 작을 확률”을 구할 수 있다.
- 통계에서 가설검정, p-value를 계산할 때도 표준정규분포표로 확률 찾는 식으로도 사용함
- 예를 들어 z=1.96이면 양쪽 끝이 합쳐서 약 5%이고, “95% 신뢰구간”과 같은 표현이 여기서 나옴.