이름 | 모수 | 통계량 | 계산식 |
---|---|---|---|
크기 | - | ||
평균 | |||
분산 | 혹은 | ||
표준편차 | |||
비율(확률) |
통계량: 표본의 몇몇 특징을 수치화한 것
대표값. 자료의 중심점
평균, 중앙값, 최빈값 등
무게중심을 나타내는 값.
계산이 쉬움. 각 자료에 하나의 값을 가진다.
이상치 있을 경우 신뢰 어려움. (극단적인 값에 민감)
데이터를 순서대로 나열할 때 가운데에 있는 값.
가장 많이 나타나는 값.
평균/중앙값과 달리 존재하지 않을 수도 있고 유일하지 않을 수도 있음.
질적 변수에서도 이걸 사용할 수 있음.
(질적 변수 = 수치 아니고 카테고리를 나타내는 변수)
데이터 표본을 4개로 나눔.
크기 순서대로 정렬해서, 총 개수가 전체의 25의 배수가 될 때마다 분위를 나눔.
예를 들어 최소값부터 시작해서 개수가 전체의 25%가 되는 수가 1분위수, 50이 2분위 수, 75가 3분위 수.
여기서 3분위 수에서 1분위 수를 뺀 것이 IQR이라고 하며 박스 플롯에서 박스가 이 IQR을 나타냄.
자료의 퍼짐, 흩어짐 정도.
분산, 표준편차 등
자료의 퍼짐 정도를 확인하는 통계량
각 변수와 평균과의 차를 평균 낸 것이다.
이때 절대값 효과를 주기 위해 제곱을 한다.
실제로 절대값을 쓰는 것을 평균절대편차라고 하고 옛날엔 분산 대신 썼다고도 한다.
절대값을 쓰면 나중에 미분이 어렵다는 게 절대값 안 쓰는 이유 중 하나라고 한다.
이때 평균과 달리 으로 나누지 않고 로 나누는데 이 을 자유도라고 한다.
모수에서 바로 구할 때는 으로 나눈다.
분산의 제곱.
표준편차를 평균으로 나눈 값.
서로 다른 데이터 간의 편차를 비교하는 방법.
일반적인 값의 크기가 다른 두 데이터가 있는데, (예를 들어 키와 몸무게)
표준편차는 키가 더 크지만 실제로는 몸무게가 더 퍼져있을 가능성이 있다.
(보통 키는 백 중후반이므로 편차도 클 것이고, 몸무게는 편차들이 그것보단 작을 것)
이 경우 표준편차가 크다는 이유만으로 키 데이터가 넓게 퍼져있다고 판단할 수 없다.
표준편차를 각자의 평균으로 나눠서 스케일을 제거해서 공정하게 비교해야 한다.
변동계수 = 변이계수 = Coefficient of Variation = 이다.
분포의 치우침을 나타내는 척도로 좌우 대칭인 경우 0이다.
오른쪽 꼬리가 길다 = 생긴 게 왼쪽으로 치우침 = 양수
왼쪽 꼬리가 길다 = 생긴 게 오른쪽으로 치우침 = 음수
그래프에서 가장 높은 게 최빈값, 낮아지는 방향으로 중앙값, 평균이다.
뾰족한 정도를 나타낸다. 정규분포면 0이고 정규분포보다 뾰족하면 양수이고 더 퍼져있으면 음수.