본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초
하나의 값으로 데이터를 나타낸다.
계산이 쉽고 다루기 쉬움
모든 관측치를 사용하므로 특이값에 영향을 많이 받는다.
관측한 자료를 순서대로 배열했을 때 가장 중앙에 있는 값
순위를 사용해 중앙에 있는 값만 사용하므로 특이값에 영향을 받지 않는다.
관측치 가운데 가장 여러번 나타난 값
여러 개 존재하거나 존재하지 않을 수 있고 중심을 잘 대변하지 못하는 경우
가 많다.
이산변수에 주로 사용, 변주형 변수에도 사용 가능
특이값
이 있는 경우 중앙값
이 더 적합
그렇지 않은 경우 대부분 산술평균
이 적합
정렬하고 (n+1) / 2 번째 값을 취한다.
ex) n == 25 일때 26 / 2인 13번째 값이 중앙값이 된다.
정렬하고 n/2 번째 값을 취한다.
ex) n == 24 일때 24 / 2인 12번째 값이 중앙값이 된다.
산술평균과 중앙값이 같은 값을 가진다.
왼쪽, 오른쪽으로 긴 데이터들이 평균을 끌어들인다.
데이터가 얼마나 퍼져있는가
를 나타냅니다.
최대값 - 최소값으로 표현한다.
아주 크거나 작은 특이값에 큰영향을 받는다.
75 백분위 수에서 25 백분위 수를 뺀것
을 의미한다.
특이값에 영향을 받지 않는다.
가장 널리 사용되며 통계적 추론에 유용
산술 평균 처럼 특이값에 영향을 받음
표준편차 계산방법
1) 각각의 관측치에서 평균을 빼고 그값의 제곱을 모두 더해준다.
2) 더한 값을 n-1로 나눈다. ( 여기까지가 분산 )
3) 나눈값의 루트를 취한다. ( 표준편차 )
p 백분위수란 오름차순 정렬했을 때 p%의 관측치는 이 값 아래에 있고 나머지는 이 값보다 위에 있게 되는 값을 말함
ex) 중앙값: 50 백분위수
Q1 = 25 백분위 수 = 제 1 사분위 수
Q3 = 75 백분위 수 = 제 3 사분위 수
IQR = Q3 - Q1
min < Q1 < median < Q3 < max
다섯 숫자 요약의 그래프적 요약
상자는 중앙 50%의 자료를 표시
여러개의 분포를 한 눈에 비교할 때 유용
히스토그램 - 하나의 그룹에 대한 분포를 본다.
상자 그림 - 여러 그룹에 대한 분포를 비교한다.