1️⃣ 통계적 특성 (데이터의 통계적 특성)
✨ 기본적인 통계량들
| 용어 | 의미 |
|---|
| 평균(mean) | 전체 데이터를 다 더해서 개수로 나눈 값 |
| 중앙값(median) | 데이터를 순서대로 나열했을 때 정중앙에 있는 값 (홀수개일 땐 중앙의 값, 짝수개일 땐 가운데 두 값의 평균) |
| 최빈값(mode) | 가장 자주 등장하는 값 |
| 분산(variance) | 평균으로부터 데이터들이 얼마나 떨어져 있는지 나타내는 지표 |
| 표준편차(standard deviation) | 분산의 제곱근으로, 평균으로부터 데이터가 얼마나 퍼져있는지 보여주는 지표 |
2️⃣ 기술 통계 (descriptive statistics)
- 데이터를 쉽게 요약해주는 통계 방법
- 파이썬에서는 Numpy, SciPy, Pandas 를 통해 쉽게 처리
자주 쓰는 함수
import numpy as np
data = np.array([1, 2, 3, 4, 5])
print("평균: ", np.mean(data))
print("중앙값: ", np.median(data))
print("분산: ", np.var(data))
print("표준편차: ", np.std(data))
print("최댓값: ", np.max(data))
print("최솟값: ", np.min(data))
평균: 3.0
중앙값: 3.0
분산: 2.0
표준편차: 1.4142135623730951
최댓값: 5
최솟값: 1
일괄적으로 보기
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data.describe())
count 5.000000
mean 3.000000
std 1.581139
min 1.000000
25% 2.000000
50% 3.000000
75% 4.000000
max 5.000000
dtype: float64
3️⃣ 랜덤변수(확률변수, Random Variables)
✨ 랜덤변수란?
- 확률적인 과정에서 나타나는 값들을 숫자로 표현한 변수
- 주사위 던지기, 동전 던지기 같은 상황에서 얻어지는 결과 값들
✨ 확률변수의 종류
📌 이산 확률변수(Discrete)
- 정수 형태로 딱 끊어지는 값(횟수, 사람 수 등) 을 가질 때 사용
- 예: 주사위 눈금, 친구 숫자, 동전 앞면 개수 등
📌 연속 확률변수(Continuous)
- 값이 끊어지지 않고 구간 내에서 어떤 값이든 가질 수 있는 경우 사용
- 예: 키, 몸무게, 소득 등
4️⃣ 확률 분포의 종류
| 분포 종류 | 설명 | 예시 |
|---|
| 이산 확률분포 | 값이 정수 형태로 끊어지는 확률분포 | 주사위 던지기 |
| 연속 확률분포 | 값이 연속적이며 특정 범위 내에서 다양한 값이 나타남 | 키, 체중 등 |
✨ 주요 확률분포 정리
- 이산 확률분포
- 이항분포 : 성공 / 실패가 있는 실험에서 일정 횟수 동안 성공 횟수를 나타낼 때 사용 (동전 던지기 등)
- 포아송분포 : 특정 시간 또는 공간 안에서 특정 사건이 몇 번 발생할지를 나타낼 때 사용
- 연속 확률분포
- 정규분포(Nomal Distribution) : 평균값 주변에서 가장 많이 분포하며 좌우 대칭적인 형태(종모양)
- 표준정규분포(Standard Normal) : 평균이 0, 표준편차가 1인 정규분포
- 카이제곱, F분포, t분포 : 통계적 가설 검정 시 자주 사용되는 분포
5️⃣ 확률밀도함수 (PDF, Probability Density Function)
- 연속 확률변수가 특정 구간 안에 속할 확률을 보여주는 함수
- 예시
- 정확히 특정 숫자(정확히 키가 170cm) 일 확률은 사실상 0에 가까움
- 특정 구간 (170 ~ 180cm) 에 속할 확률을 보여줌
- 정규분포의 확률밀도함수 형태
- 평균 근처 값에서 확률이 높고, 평균에서 멀어질수록 점점 낮아지는 종 모양의 곡선 형태를 보임
6️⃣ 정규분포의 특징 및 중요성
- 평균을 중심으로 좌우 대칭 형태를 가지고 있음
- 평균(Mean), 중앙값(Median), 최빈값(Mode) 모두 일치
- 많은 자연 현상들이 이 정규분포의 형태를 따름 (사람의 키, 시험 점수 등)