Z-Score

Minjung·2025년 11월 20일
post-thumbnail

개념

  • 표준편차를 단위로 보았을 때 측정치가 평균에서 얼만큼 떨어져있는가를 표현
  • 평균과 표준편차를 이용

예시

어떤 시험의 평균 점수가 70점이고, 표준 편차가 10점이라고 해보자. 80점을 받은 사람은 평균보다 10점 높고, 60점을 받은 사람은 평균보다 10점 낮다.

이걸 10점 높다/낮다로 표현하는 대신

✅ “평균에서 표준편차 기준으로 얼마나 떨어져 있는지”

를 보고 싶어서 만든게 Z-Score이다.

공식

z=xμσz = \frac{x - \mu}{\sigma}
  • 𝑥 : 내가 가진 값 (예: 내 점수)
  • 𝞵: 평균 (mean)
  • σ: 표준편차 (standard deviation)

왜 쓰는거지 ?

  1. 단위/스케일이 다른 것끼리 비교할 수 있음

    만약

    • 수학시험 : 평균 70, 표준편차 10, 내 점수 85점
    • 영어 시험 : 평균 80, 표준편차 5, 내 점수 88점

    이라면, 그냥 점수만 보았을 때 수학은 평균보다 15점 높고, 영어는 평균보다 8점 높다. 단순히 생각했을 때 수학을 더 잘 본 것 같지만, 같이 시험본 사람들과 비교해보고 싶다면?(분포를 반영하고 싶다면)

    • 수학의 z-score : 85-70/10 = 1.5
    • 영어의 z-score : 88-80/5 = 1.6

    → 영어의 z-score가 더 크기 때문에 그 시험을 본 사람들 중에서 상대적으로는 영어를 더 잘보았다고 볼 수 있음.

  2. 이상치 찾기

    보통 정규분포를 가정하면,

    • z가 +-1 이내 : 전체의 약 68%
    • z가 +-2 이내 : 약 95%
    • z가 +-3이내 : 약 99.7%

    그래서 z값이 |3| 을 벗어나는 값은 평균에서 너무 멀리떨어진 값 = 이상치일 가능성 ⬆️

  3. 정규분포에서 확률(p-value)랑 연결

    만약 어떤 데이터가 정규분포를 따른다고 가정하면,

    • z-score를 통해 “이 값보다 크거나 작을 확률”을 구할 수 있다.
    • 통계에서 가설검정, p-value를 계산할 때도 표준정규분포표로 확률 찾는 식으로도 사용함
      • 예를 들어 z=1.96이면 양쪽 끝이 합쳐서 약 5%이고, “95% 신뢰구간”과 같은 표현이 여기서 나옴.
profile
취준하는 데이터 분석가의 정리노트📘

0개의 댓글