데이터의 통계적 특성

Yuno·2025년 3월 28일

데이터 사이언스

목록 보기

10/25

1️⃣ 통계적 특성 (데이터의 통계적 특성)

✨ 기본적인 통계량들

용어	의미
평균(mean)	전체 데이터를 다 더해서 개수로 나눈 값
중앙값(median)	데이터를 순서대로 나열했을 때 정중앙에 있는 값 (홀수개일 땐 중앙의 값, 짝수개일 땐 가운데 두 값의 평균)
최빈값(mode)	가장 자주 등장하는 값
분산(variance)	평균으로부터 데이터들이 얼마나 떨어져 있는지 나타내는 지표
표준편차(standard deviation)	분산의 제곱근으로, 평균으로부터 데이터가 얼마나 퍼져있는지 보여주는 지표

2️⃣ 기술 통계 (descriptive statistics)

데이터를 쉽게 요약해주는 통계 방법
파이썬에서는 Numpy, SciPy, Pandas 를 통해 쉽게 처리

자주 쓰는 함수

import numpy as np

data = np.array([1, 2, 3, 4, 5])

print("평균: ", np.mean(data))
print("중앙값: ", np.median(data))
print("분산: ", np.var(data))
print("표준편차: ", np.std(data))
print("최댓값: ", np.max(data))
print("최솟값: ", np.min(data))

평균:  3.0
중앙값:  3.0
분산:  2.0
표준편차:  1.4142135623730951
최댓값:  5
최솟값:  1

일괄적으로 보기

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

print(data.describe())

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

3️⃣ 랜덤변수(확률변수, Random Variables)

✨ 랜덤변수란?

확률적인 과정에서 나타나는 값들을 숫자로 표현한 변수
주사위 던지기, 동전 던지기 같은 상황에서 얻어지는 결과 값들

✨ 확률변수의 종류

📌 이산 확률변수(Discrete)

정수 형태로 딱 끊어지는 값(횟수, 사람 수 등) 을 가질 때 사용
예: 주사위 눈금, 친구 숫자, 동전 앞면 개수 등

📌 연속 확률변수(Continuous)

값이 끊어지지 않고 구간 내에서 어떤 값이든 가질 수 있는 경우 사용
예: 키, 몸무게, 소득 등

4️⃣ 확률 분포의 종류

분포 종류	설명	예시
이산 확률분포	값이 정수 형태로 끊어지는 확률분포	주사위 던지기
연속 확률분포	값이 연속적이며 특정 범위 내에서 다양한 값이 나타남	키, 체중 등

✨ 주요 확률분포 정리

이산 확률분포
- 이항분포 : 성공 / 실패가 있는 실험에서 일정 횟수 동안 성공 횟수를 나타낼 때 사용 (동전 던지기 등)
- 포아송분포 : 특정 시간 또는 공간 안에서 특정 사건이 몇 번 발생할지를 나타낼 때 사용
연속 확률분포
- 정규분포(Nomal Distribution) : 평균값 주변에서 가장 많이 분포하며 좌우 대칭적인 형태(종모양)
- 표준정규분포(Standard Normal) : 평균이 0, 표준편차가 1인 정규분포
- 카이제곱, F분포, t분포 : 통계적 가설 검정 시 자주 사용되는 분포

5️⃣ 확률밀도함수 (PDF, Probability Density Function)

연속 확률변수가 특정 구간 안에 속할 확률을 보여주는 함수
예시
- 정확히 특정 숫자(정확히 키가 170cm) 일 확률은 사실상 0에 가까움
- 특정 구간 (170 ~ 180cm) 에 속할 확률을 보여줌
정규분포의 확률밀도함수 형태
- 평균 근처 값에서 확률이 높고, 평균에서 멀어질수록 점점 낮아지는 종 모양의 곡선 형태를 보임