◾범위
- 대표값이 모두 같을 경우 데이터를 구별하기 위해
범위
사용
- 평균과 분포를 확인해야 한다.
- player1
points scored per game | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|
frequency | 1 | 1 | 2 | 2 | 2 | 1 | 1 |
- player2
points scored per game | 7 | 9 | 10 | 11 | 13 |
---|
frequency | 1 | 2 | 4 | 2 | 1 |
- player3
points scored per game | 3 | 6 | 7 | 10 | 11 | 13 | 30 |
---|
frequency | 2 | 1 | 2 | 3 | 1 | 1 | 1 |
- 평균, 중앙값, 최빈값 : 모두 10
- 범위 측정 : 하한(lower bound)과 상한(upper bound)의 간격
- player1 : 7 ~ 13
- player2 : 7 ~ 13
- player3 : 3 ~ 30
1. 사분위
- 범위만으로 비교하기 어려울 수 있다. (Outlier)
- Outlier를 제외하고 데이터를 판단할 필요가 있다.
- 히스토그래의 데이터를 개수로 4등분하여 각 지점을 Q1, Q2, Q3라고 하며 Q1 ~ Q3을 작은 범위로 채택
- A |Q1| b |Q2| C |Q3| D
- Q1 ~ Q3 범위 : mini range
Q1
: Lower quartile
Q2
: Median
Q3
: Upper quartile
사분 범위(mini range, Interquartile range IQR)
: Q3 - Q1
- 사분범위로 이상치를 자른다는 것은 이상치에 의해 데이터의 특성이 왜곡되는 현상의 배제를 말한다.
- player3 사용
- 3 3 6 7 7 10 10 10 11 13 30
- range = 27, lower quartile = 6, median = 10, upper quartile = 11
- IQR = q3 - q1 = 11 - 6 = 5
2. 십분위, 백분위
십분위수(Deciles)
: 데이터를 개수로 10등분하여 양끝을 없애고 나머지를 작은 범위로 채택
백분위수(Percentiles)
: 데이터를 개수로 100등분, 아래 기호를 사용한다.
- Pk=k%
- 백분위수는 어떤 값이 다른 값에 비해 얼마나 높은지 확인할 때 사용
3. BoxPlot(박스플랏)
- 사분위를 잘 표현하는 시각화 도구
- player3 사용
- 3 3 6 7 7 10 10 10 11 13 30
- 박스 : IQR
◾분산과 표준편차
- 어떤 선수를 선택할 것인가
- 시합 당일 감독의 기대 범위 안에서 성적을 낼 수 있는 선수
- 각 데이터에 대한 평균으로부터의 거리를 계산할 필요
- 평균거리 계산
- 1, 2, 9의 평균 : 4
- 편차 : 3, 2, -5 => 제곱하여 더한다.
- 편차의 제곱의 평균(
분산
) : (9 + 4 + 25) / 3 = 12.67
- 분산 : 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다
- Variance=n∑(x−μ)2
- Variance=n∑x2−μ2
- 표준편차 : 분산을 제곱근한 것, 분산보다 보다 직관성을 유지하기 위한 도구
- sqrt(Variance)
- σ2=Variance
- σ=Variance
◾표준점수
- 데이터 집합 사이에서 비교를 수행할 때 표준점수 Standard Score 사용
- 이 과정을 표준화 라고 한다.
- Z=σx−μ