통계 기초(2) - 변이와 분포 측정

이상해씨·2021년 10월 19일
0

통계 기초

목록 보기
2/10

◾범위

  • 대표값이 모두 같을 경우 데이터를 구별하기 위해 범위 사용
  • 평균과 분포를 확인해야 한다.
    • player1
      points scored per game78910111213
      frequency1122211
    • player2
      points scored per game79101113
      frequency12421
    • player3
      points scored per game36710111330
      frequency2123111
    • 평균, 중앙값, 최빈값 : 모두 10
    • 범위 측정 : 하한(lower bound)과 상한(upper bound)의 간격
      • player1 : 7 ~ 13
      • player2 : 7 ~ 13
      • player3 : 3 ~ 30

1. 사분위

  • 범위만으로 비교하기 어려울 수 있다. (Outlier)
  • Outlier를 제외하고 데이터를 판단할 필요가 있다.
  • 히스토그래의 데이터를 개수로 4등분하여 각 지점을 Q1, Q2, Q3라고 하며 Q1 ~ Q3을 작은 범위로 채택
    • A |Q1| b |Q2| C |Q3| D
    • Q1 ~ Q3 범위 : mini range
    • Q1 : Lower quartile
    • Q2 : Median
    • Q3 : Upper quartile
    • 사분 범위(mini range, Interquartile range IQR) : Q3 - Q1
  • 사분범위로 이상치를 자른다는 것은 이상치에 의해 데이터의 특성이 왜곡되는 현상의 배제를 말한다.
  • player3 사용
    • 3 3 6 7 7 10 10 10 11 13 30
    • range = 27, lower quartile = 6, median = 10, upper quartile = 11
    • IQR = q3 - q1 = 11 - 6 = 5

2. 십분위, 백분위

  • 십분위수(Deciles) : 데이터를 개수로 10등분하여 양끝을 없애고 나머지를 작은 범위로 채택
  • 백분위수(Percentiles) : 데이터를 개수로 100등분, 아래 기호를 사용한다.
    • Pk=k%P_k = k\%
    • 백분위수는 어떤 값이 다른 값에 비해 얼마나 높은지 확인할 때 사용

3. BoxPlot(박스플랏)

  • 사분위를 잘 표현하는 시각화 도구
  • player3 사용
    • 3 3 6 7 7 10 10 10 11 13 30
    • 박스 : IQR

◾분산과 표준편차

  • 어떤 선수를 선택할 것인가
    • 시합 당일 감독의 기대 범위 안에서 성적을 낼 수 있는 선수
    • 각 데이터에 대한 평균으로부터의 거리를 계산할 필요
  • 평균거리 계산
    • 1, 2, 9의 평균 : 4
    • 편차 : 3, 2, -5 => 제곱하여 더한다.
    • 편차의 제곱의 평균(분산) : (9 + 4 + 25) / 3 = 12.67
  • 분산 : 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다
    • Variance=(xμ)2nVariance = {\sum(x - \mu)^2 \over n}
    • Variance=x2nμ2Variance = {\sum {x^2} \over n} - \mu ^2
  • 표준편차 : 분산을 제곱근한 것, 분산보다 보다 직관성을 유지하기 위한 도구
    • sqrt(Variance)
    • σ2=Variance\sigma^2 = Variance
    • σ=Variance\sigma = \sqrt{Variance}

◾표준점수

  • 데이터 집합 사이에서 비교를 수행할 때 표준점수 Standard Score 사용
    • 이 과정을 표준화 라고 한다.
    • Z=xμσZ = {{x - \mu} \over {\sigma}}
profile
후라이드 치킨

0개의 댓글