"이미 가지고 있는 데이터 자체를 요약·정리하는 통계"
데이터를 대표값이나 흩어짐 정도로 정리해서 전체적인 분포와 경향을 파악할 때 사용한다.
평균 (mean)
모든 값을 더한 뒤 개수로 나눈 값
→ 데이터의 “중심”을 가장 직관적으로 보여주는 값
중앙값 (median)
값을 크기순으로 나열했을 때 정중앙에 위치한 값
→ 극단값(이상치)에 덜 민감해서, 왜도가 큰 데이터에서 유용함
분산 (variance)
데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도
→ 값들의 흩어짐(산포도)을 수치로 표현
표준편차 (standard deviation)
분산의 제곱근
→ “평균에서 얼마나 떨어져 있는지”를 원래 단위로 보여주는 통계량
→ 값이 클수록 데이터가 평균 주변에서 많이 퍼져 있다는 의미
"일부 데이터(표본)를 보고, 전체 집단(모집단)을 추정·검정하는 통계"
모든 사람/모든 경우를 다 조사할 수 없기 때문에,
일부만 뽑은 표본(sample) 으로 모집단(population) 의 특징을 추론한다.
신뢰구간 (Confidence Interval)
서울 직장인 하루 평균 카페 지출은
5,000원 ~ 6,000원 (95% 신뢰구간)
가설검정 (Hypothesis Testing)
“이 정도 결과가 우연으로 나올 확률이 얼마나 되는가?”
를 보고, 귀무가설을 유지할지/기각할지 결정한다.
기술통계
→ 이미 가지고 있는 데이터를 요약·정리하는 것
(평균, 중앙값, 분산, 표준편차 등)
추론통계
→ 일부 데이터(표본)를 가지고 모집단 전체의 특징을 추정하거나,
특정 주장(가설)이 맞는지 검정하는 방법
(신뢰구간, 가설검정 등)