표본분산의 특징
일반적으로 표본분산은 모분산하고 같아지길 바란다. 하지만 표본평균을 이용하여 표본분산을 구하게되면 모분산보다 더 적은 경향이 있다. 왜냐하면 전체 집단에서 일부만 빼내기 때문에 모집단을 과소평가하려는 경향이 있다. 따라서 자유도인 n-1을 이용하여 나눈다.
자유도
3개의 물건을 3명이 나누어 가진다고 한다면 A가 1번 B가 2번을 가져가면 C에게는 선택권이 없다
따라서 이러한 경우 3명이지만 자유도를 가진사람은 2명이라고 말할 수 있다. 이를 분산과 평균에 접목시키면 표본평균을 알고있다라는 가정하에 각각의 원소들은 n개중 n-1개만 알면 나머지 하나는 표본평균에 의해 자동 결정되기에 n-1개의 자유도를 가진다고 말할 수 있다.
굳이 n-1로 나누는 이유
1. 자유도가 n-1이기 때문에 →근본적인 이유는 모르겠음
2. 분산의 기대치을 이용하면 수학적으로 증명이 가능하다
자세한 이유는 너무 어렵다..그냥 n-1만 외우자..
표본표준편차
S=(S2)
S가 크다 = 편차의 절대값이 큼 = 관측값이 평균으로부터 멀리 떨어져있음
백분위수
중앙값의 개념을 확장시킨 값이라 할수 있다
제 100×P(0≤P≤1) 백분위수 : 자료의 100×P%에 위치한 값
백분위수보다 작거나 같은 자료의 수가 np개 이상이고 그 값보다 크거나 같은 자료의 수가 n(1−p)개 이상인 값
백분위수 구하는 법
np가 정수이면 np번째 값과 np+1번째 값의 평균
np가 정수가 아니면 [np+1]번째 값
사분위수
전체 자료를 사등분하는 값
제 1사분위수 : 제 25백분위수 / 제 2사분위수 : 제 50백분위수(중앙값) / 제 3사분위수 : 제 75백분위수
사분위수범위 : 제 1사분위수와 제 3사분위수사이범위
상위 25%와 하위 25%를 뺀 나머지 50%의 값
극단적인 값을 제외한 자료의 퍼진정도를 알 수 있음
한쪽으로 치우친 자료의 퍼진정도를 나타낼때 유용함
퍼진 정도의 측도 비교
범위
장점 : 간편하게 구할 수 있고 해석이 용이함
단점 : 자료의 양 끝 값에 의해 결정되기에 중간의 값들이나 분포특징들을 고려할수 없음
극단적인 값에 영향을 받음
표준편차 (평균과 특징이 비슷함)
장점 : 전체 자료의 값을 반영함
단점 : 극단적인 값에 영향을 받음
사분위수범위 (중앙값과 특징이 비슷함)
장점 : 극단적인 값에 영향을 받지 않음
단점 : 제 1,3 사분위수의 관측값은 반영하지 않음
변동계수(coefficient of Variation : CV)
표준편차, 사분위수범위, 범위가 모두 적절하지 않은 경우 사용함
단위가 다른 경우
중심위치가 매우 다른 두 자료의 경우
ex) 평균 50 표준편차 5인 자료와 평균 20 표준편자 5인 자료를 비교
자료의 단위에 영향을 받지 않는 상대적인 측도가 필요함
변동계수 : CV=평균표준편차×100
표본평균에 대해 상대적인 퍼진 정도를 백분율로 나타낸 값
위 예시를 적용해 보자면 전자는 10, 후자는 25가 나온다 따라서 후자의 분포가 더 퍼져있음을 알 수 있다.
이처럼 평균이 크게 차이가 나거나 단위가 다른 두값을 비교할 수 있다.
상자그림
상자그림은 수치를 그림과 함께 제공하고 여러개의 항목을 비교하기에 용이함
중심위치, 퍼진정도, 대칭성, 이상치 등 분포의 다양한 특성을 하나의 그림에 포함시킬 수 있음