2. 자료의 형태와 요약 2

skyepodium·2020년 2월 19일
0

통계의 기초

목록 보기
2/5

본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초

1. 대표값

하나의 값으로 데이터를 나타낸다.

1) 산술 평균 (mean)

계산이 쉽고 다루기 쉬움

모든 관측치를 사용하므로 특이값에 영향을 많이 받는다.

2) 중앙값 (median)

관측한 자료를 순서대로 배열했을 때 가장 중앙에 있는 값

순위를 사용해 중앙에 있는 값만 사용하므로 특이값에 영향을 받지 않는다.

3) 최빈값 (mode)

관측치 가운데 가장 여러번 나타난 값

여러 개 존재하거나 존재하지 않을 수 있고 중심을 잘 대변하지 못하는 경우가 많다.

이산변수에 주로 사용, 변주형 변수에도 사용 가능

4) 정리

특이값이 있는 경우 중앙값이 더 적합

그렇지 않은 경우 대부분 산술평균이 적합

2. 중앙값의 계산

1) n이 홀수

정렬하고 (n+1) / 2 번째 값을 취한다.
ex) n == 25 일때 26 / 2인 13번째 값이 중앙값이 된다.

2) n이 짝수

정렬하고 n/2 번째 값을 취한다.
ex) n == 24 일때 24 / 2인 12번째 값이 중앙값이 된다.

3. 산술 평균 vs 중앙값

1) 대칭인 분포

산술평균과 중앙값이 같은 값을 가진다.

2) 치우친 분포

왼쪽, 오른쪽으로 긴 데이터들이 평균을 끌어들인다.

4. 산포도

데이터가 얼마나 퍼져있는가를 나타냅니다.

1) 범위

최대값 - 최소값으로 표현한다.
아주 크거나 작은 특이값에 큰영향을 받는다.

2) 사분위 범위 ( IQR )

75 백분위 수에서 25 백분위 수를 뺀것을 의미한다.
특이값에 영향을 받지 않는다.

3) 표준편차

가장 널리 사용되며 통계적 추론에 유용
산술 평균 처럼 특이값에 영향을 받음

표준편차 계산방법
1) 각각의 관측치에서 평균을 빼고 그값의 제곱을 모두 더해준다.
2) 더한 값을 n-1로 나눈다. ( 여기까지가 분산 )
3) 나눈값의 루트를 취한다. ( 표준편차 )

5. 백분위 수

1) 정의

p 백분위수란 오름차순 정렬했을 때 p%의 관측치는 이 값 아래에 있고 나머지는 이 값보다 위에 있게 되는 값을 말함

ex) 중앙값: 50 백분위수

2) 의미

Q1 = 25 백분위 수 = 제 1 사분위 수
Q3 = 75 백분위 수 = 제 3 사분위 수

3) 사분위 범위

IQR = Q3 - Q1

4) 다섯 숫자 요약

min < Q1 < median < Q3 < max

6. 상자 그림

1) 정의

다섯 숫자 요약의 그래프적 요약

상자는 중앙 50%의 자료를 표시

여러개의 분포를 한 눈에 비교할 때 유용

2) 그리는 방법

  1. Q1과 Q3로 끝나는 상자를 그린다. (상자의 길이 = IQR)
  2. 상자 안에 줄을 그어 중앙값을 표시한다.
  3. Q3 + 1.5 IQR 보다 크거나 Q1 - 1.5 IQR 보다 작은 값은 * 또는 다른 심볼로 표시한다. (outliers): 1.5 IQR criterion
    4) 상자의 끝에서 outlier가 아닌 값 중에 가장 큰 값과 가장 작은 값까지 줄을 긋는다.

3) 특징

히스토그램 - 하나의 그룹에 대한 분포를 본다.
상자 그림 - 여러 그룹에 대한 분포를 비교한다.

4) 예시

  1. Q1, Q3를 그린다.
    2) 가운데 선인 Q2 ( median ) 을 그린다.
    3) min, max 선을 그린다.
profile
callmeskye

0개의 댓글