Statistics - 기술통계학(Descriptive Statistics) 1

nalimeitb·2026년 3월 13일

Statistics(HALF1007)

목록 보기
1/4

기술통계학 - 1

HALF1007 통계학(수학과 배윤한 교수님) 수업을 듣고 정리했습니다.


목차


숫자를 이용한 자료의 요약

자료의 중심에 대한 대푯값

평균(arithmetic mean)(또는 산술평균)

중위수(median)(또는 중앙값)

  • 자료의 크기순으로 나열하였을 때, 가장 중앙에 위치한 값

최빈수(mode)

  • 자료 중 빈도수가 가장 많은 자료값
  • 질적자료나 양적자료 모두에 사용할 수 있다.
  • 이상치의 영향을 받지 않는다
  • 여러 값이 존재할 수 있다.
  • 예) 혈액형자료 같은 질적 자료도 가능하다.

기하평균(geometric mean)

조화평균(harmonic mean)

다듬어진 평균(trimmed mean)

  • 관측값들을 크기순으로 나열한 후, 일정한 개수의 큰 값과 작은 값을 제외하고 계산한 평균
  • 산술평균의 단점을 보완하기 위해서 사용하기도 한다.
  • 예) 올림픽 체조경기, 피겨스케이팅 등의 심사

대푯값 선정 기준

대푯값을 선정하는 기준은 보통 아래와 같다.

  • 명목척도로 측정된 데이터는 최빈값을 사용.
  • 분포가 대칭이고 이상치가 존재하지 않으면, 표본평균을 사용
  • 비대칭이거나 이상치가 존재하면 중앙값을 사용하고, 표본평균을 참고값으로 비교함.
  • 순서척도로 측정된 데이터의 대푯값은 중앙값을 사용.

대푯값의 비교

단봉그래프(unimodal graph)

  • mean 값은 균형을 이루는 지점이라고 생각하면 간편하다.


산포도(measure of dispersion)

  • 대푯값을 중심으로 자료가 밀집되어 있는가 또는 흩어져 있는가를 나타내는 측도
  • 자료가 퍼진 정도르 음이 아닌 하나의 수치로 표현한다.
  • 수치가 작을수록 자료는 대푯값을 중심으로 밀집되어 있고, 클수록 멀리 흩어져 분포되어 있음.
  • 데이터의 중심 위치는 같더라도 데이터이 분포 형태는 아주 다를 수 있음.

분산(variance)




편차 n 개중에 자유롭게 움직일 수 있는 놈들은 n-1개 뿐
표본평균을 계산하는 순간, 이미 데이터 하나분의 정보를 사용한 것.
표본으로 모집단 분산을 추정할 때, 단순히 n으로 나누면 값이 너무 작게 나오게 되는거야.
이걸 n-1로 나누면, 모집단 분산을 평균적으로 더 정확하게 맞히게 되는 것.

표준편차(standard deviation ; s)

  • 자료의 단위를 맞춤

변이계수(또는 변동계수)(coefficient of variation; CV)

  • 단위평균에 대한 표준편차이므로 상대적 산포도
  • 측정 단위에 의존하지 않게 되어, 두 그룹의 데이터의 산포를 비교하는데 유용하다.
  • 여러 집단간의 산포도를 비교하는데 이용함.
  • CV = 표준편차/표본평균 * 100
  • 표준편차 만으로 비교하는 것은 적절하지 못하다

제p백분위수(p-th percentile)

  • 자료의 크기순으로 나열하였을 때, 그 값보다 작거나 같은 자료가 적어도 p% 이상이고, 그 값보다 크거나 같은 자료가 적어도 100 - p% 이상이 되는 값.

  • 이러한 값이 여러 개 있으면 p 백분위수는 이들의 산술평균.

  • 일사분위수(Q1) = 제 25 백분위수

  • 이사분위수(Q2) = 제 50 백분위수 = 중앙값

  • 삼사분위수(Q3) = 제 75 백분위수

  • 사사분위수(Q4) = 제 100 백분위수

범위(range)

  • 전체 자료 범위가 포함되어 있는 구간의 폭 (최댓값 - 최솟값)

사분위수범위(interquartile range ; IQR)

  • Q3 - Q1
  • IQR이 크면, 관측값들이 중앙값을 중심으로 넓게 흩어져 있음.

사분위수편차(quartile deviation ; Q)

  • IQR/2 = (Q3 - Q1) / 2
  • 이상치의 영향이 적다.

상자그림(box plot)(또는 상자수염그림)

  • 일사분위수(Q1), 삼사분위수(Q3), 중앙값, 최댓값, 최솟값 등을 이용하여 관측값들의 분포를 나타낸 그림
  • 다섯숫자요약(five number summary) : (Xmin, Q1, Me, Q3, Xmax)
  • 분포의 대칭성, 중심의 위치, 흩어진 정도, 극단값을 파악하기가 용이
  • (산술평균의 위치를 표기하기도 한다)

CF

기술통계학과 추론통계학

  • 기술통계학 : 모집단으로부터 표분을 추출하고 나서 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하는 절차를 다루는 분야
  • 추론통계학 : 모집단으로부터 추출한 표본의 표본 통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차를 다루는 분야
  • 모수는 모집단의 특성을 말한다. 모평균, 모분산, 모비율 등

자료의 구성

  • 자료는 각 관찰단위, 객체가 행을 이루고, 각 변수가 열을 이루는 숫자의 행렬이다.
  • 사용할 자료의 관찰단위는 각 응답자를 의미한다.

변수

  • 변수는 관찰단위에서 관찰하고자 하는 특성 또는 분석하고자 하는 특성(혈액형, 키, 몸무게 등)을 말하며, 만일 조사표가 사용한다면 조사표에 있는 질문 하나하나가 변수가 된다.
  • 필요에 따라 몇개의 질문을 하나로 묶어 변수를 만들거나 한 질문에서 두개의 변수를 만들기도 한다.

데이터의 척도(측정수준)에 따른 분류

  • 명목척도(nominal scale) : 데이터의 순서나 크기에 의미를 갖지 않는 경우
    예) 전화번호, 등록번호, 성별, 혈액형 등

  • 순서척도(ordinal scale) : 데이터의 순서나 차례, 서열 등의 의미를 갖지만 그 간격에는 의미가 없는 경우
    예) 직급, 계급, 순위, 등급 등

  • 구간척도(interval scale) : 데이터의 순서뿐만 아니라, 그 간격에도 의미가 있으나, 비율의 의미는 갖지 못하는 경우
    예) 섭씨온도, 지능지수 등

  • 비율척도(ratio scale) : 데이터에 절대 영점이 있으며, 간격뿐만 아니라 비율에도 의미를 갖는 경우
    비율이 의미를 갖기 위해서는, 절대영점(뭐가 없다)이 필요하다.
    예) 절대온도, 농도, 몸무게, 키 등

  • 명목척도와 순서척도는 질적자료, 구간척도와 비율척도는 양적자료라고 불리우기도 하며, 명목척도에서 비율척도로 갈수록 측정수준이 높아진다 라고 표현한다.

데이터를 조사한다는 것은, 데이터로부터 정보를 얻기 위함인데, 조사한 데이터 자체만으로는 데이터가 가지고 있는 전체적인 윤곽과 특성을 쉽게 파악하기 힘들기 때문에, 정리와 요약이 필요하다.


표를 이용한 자료의 정리와 분석

도수분포표(frequency distribution table)

  • 관측값을 범주에 따라 구분한 후, 각 범주에 속하는 도수와 상대도수를 측정하여 정리한 표
  • 원자료가 포함하고 있는 정보를 잃어버리지 않고 간단하게 요약

도수분포표에서 나타나는 내용

  • 계급(class) : 데이터 전체의 범위를 몇 개의 소집단으로 나눈 것
  • 도수(frequency) : 각 계급에 속하는 데이터의 수
  • 상대도수(relative frequency) : 도수 / 전체 데이터의 수
  • 누적도수(cumulative frequency) : 첫 계급에서 현재 계급까지 누적된 데이터의 수
  • 상대누적도수(rcf) : 첫 계급에서 현재 계급까지 누적된 도수의 비율

추가 정리

  • 연속형 자료의 도수분포표에서는 데이터의 수가 40 ~ 99 일때, 계급의 수를 5~9, 100 ~ 199일 때, 8 ~ 12, 200이상일 때, 10 ~ 16개를 사용한다.
  • 계급의 중앙값은 계급의 양 경계값의 평균
  • 계급의 크기가 커지면 Loss가 커진다.
  • 계급의 수에 대한 차이로 인해, 표현의 차이가 생길 수 있다.

분할표

  • 분할표란? 이변량 자료의 도수분포표
  • 행과 열로 구성된 직사각형 형태의 표
  • 행과 열이 교차하는 셀 하나하나가 범주
  • 두 변수와의 관련성을 연구하는데 유용
  • 분할표로부터 각 자료의 도수분포표를 얻을 수 있다.

그림을 이용한 자료의 정리와 분석

막대그림

  • 도수분포표를 막대모양의 그림으로 나타낸 것
  • 수평축에 변수의 값, 수직축에 관찰된 빈도를 표시한다.
  • 수평축에 계급의 구간을 표시, 수직축에 각 계급 구간에 해당하는 상대도수에 비례하는 높이를 갖는 직사각형 막대를 그린다.

꺽은선그래프

원그래프

  • 변수의 각 항목이나 요인이 차지하는 비율을 원의 중심각의 크기로 표시

히스토그램

  • 수평축에 계급의 구간, 수직축에 각 계급 구간에 해당하는 도수(또는 상대도수)를 표시
  • 계량치 데이터의 분포를 파악하고 집단으로서의 정보를 얻기 위한 시각적 도구(모집단의 형태, 모집단 분포의 중심위치, 모집단 분포의 산포 등)

도수다각형(frequency polygon)

  • 히스토그램에서 각 기둥의 윗변 중심을 직선으로 연결하여 x축과 이은 선이 다각형을 이루도록 작성한 그림

줄기-잎-그림(stem-and-leaf plot)

  • 관측값을 줄기와 잎이라는 두 부분으로 나누어 표현

작성요령

  • 처음 몇 개의 자리를 줄기, 나머지 자리 수 를 잎으로 결정
  • 줄기값을 크기순으로 나열한 후, 오른쪽에 수직선을 긋는다.
  • 각 줄기에서 잎의 값들을 오름차순으로 배열

특징

  • 자료의 분포 모양, 흩어진 정도, 봉우리의 위치와 대칭 여부, 이상값의 존재 여부를 쉽게 파악

시도표(time plot)

  • 시계열 자료(time series data) : 시간 간격을 두고 관측되는 자료
    예) 종합주가지수, 물가지수, 환율, 강수량
  • 시계열 자료를 시간의 변화에 따라 나타낸 그림
  • 가로축은 시간, 세로축은 변수값

0개의 댓글