데이터 분석 기본 지식[1] (기술 통계, 추론 통계, 통계량)

김무연·2024년 5월 2일

data analysis

목록 보기
3/8

기술 통계(Descriptive Statistics)

  • 기술통계는 직역하면 묘사적 통계이다. 데이터를 계량화한 수치값으로 표현한다. 평균, 최빈값, 중앙값을 구하고 분산을 구하는 것이 기술 통계이며 야구에서 투수의 방어율, 타자의 타율등을 구하는 것이 기술 통계에 속한다.

추론통계(Inferential Statistics)

  • 추론통계는 추리, 추정하는 통계를 말한다. 어떤 데이터를 바탕으로 가까운 미래를 예측하는 것이 목표이다. 선거에서 일부 유권자들을 대상으로 출구조사를 진행하여 최종 투표결과를 한 발 더 빠르게 예측하는 것이 대표적인 추론통계에 해당한다. 이처럼 데이터 분석의 밑바탕에는 일부를 통해 전체를 바라보는 '통계적 추론'이 자리하고 있다.

기술통계는 데이터의 계량화이고 추론통계는 데이터 바탕의 예측이 된다.

통계량

  • 추출된 표본 데이터를 계량한 여러 종류의 수치(값)들을 말한다. 우리가 자주 사용하는 산술평균도 통계량 가운데 하나이다. 가령 어떤 표본의 산출평균값, 즉 표본평균이란 통계량이 있을 때, 이를 활용하여 모집단의 평균(모평균)을 예측하는 것이 가능해진다. 물리 분야의 물리량이 물리 법칙을 수학으로써 계량화한 것처럼 통계량 역시 같은 맥락의 개념이다
  1. 표본 평균

  • 데이터들의 중심 경향치로 산술, 조화, 기하평균 등 여러 종류가 있음
  1. 표본 분산

  • 데이터 간의 퍼짐 정도를 표현하는 값 (= 데이터의 변동성을 대표하는 값)
  1. 표준 편차

  • 평균과 데이터 간 표준 차이
  1. 표준 오차

  • 표본평균들의 표준편차 (=표준분포의 표준오차)
  1. 표본 비율
  • 어떤 성질을 갖는 요소가 표본에서 차지하는 비율
profile
Notion에 정리된 공부한 글을 옮겨오는 중입니다... (진행중)

0개의 댓글