데이터의 통계적 특성

Yuno·2025년 3월 28일

데이터 사이언스

목록 보기
10/25

1️⃣ 통계적 특성 (데이터의 통계적 특성)

✨ 기본적인 통계량들

용어의미
평균(mean)전체 데이터를 다 더해서 개수로 나눈 값
중앙값(median)데이터를 순서대로 나열했을 때 정중앙에 있는 값 (홀수개일 땐 중앙의 값, 짝수개일 땐 가운데 두 값의 평균)
최빈값(mode)가장 자주 등장하는 값
분산(variance)평균으로부터 데이터들이 얼마나 떨어져 있는지 나타내는 지표
표준편차(standard deviation)분산의 제곱근으로, 평균으로부터 데이터가 얼마나 퍼져있는지 보여주는 지표

2️⃣ 기술 통계 (descriptive statistics)

  • 데이터를 쉽게 요약해주는 통계 방법
  • 파이썬에서는 Numpy, SciPy, Pandas 를 통해 쉽게 처리

자주 쓰는 함수

import numpy as np

data = np.array([1, 2, 3, 4, 5])

print("평균: ", np.mean(data))
print("중앙값: ", np.median(data))
print("분산: ", np.var(data))
print("표준편차: ", np.std(data))
print("최댓값: ", np.max(data))
print("최솟값: ", np.min(data))

평균:  3.0
중앙값:  3.0
분산:  2.0
표준편차:  1.4142135623730951
최댓값:  5
최솟값:  1

일괄적으로 보기

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

print(data.describe())

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

3️⃣ 랜덤변수(확률변수, Random Variables)

✨ 랜덤변수란?

  • 확률적인 과정에서 나타나는 값들을 숫자로 표현한 변수
  • 주사위 던지기, 동전 던지기 같은 상황에서 얻어지는 결과 값들

✨ 확률변수의 종류

📌 이산 확률변수(Discrete)

  • 정수 형태로 딱 끊어지는 값(횟수, 사람 수 등) 을 가질 때 사용
  • 예: 주사위 눈금, 친구 숫자, 동전 앞면 개수 등

📌 연속 확률변수(Continuous)

  • 값이 끊어지지 않고 구간 내에서 어떤 값이든 가질 수 있는 경우 사용
  • 예: 키, 몸무게, 소득 등

4️⃣ 확률 분포의 종류

분포 종류설명예시
이산 확률분포값이 정수 형태로 끊어지는 확률분포주사위 던지기
연속 확률분포값이 연속적이며 특정 범위 내에서 다양한 값이 나타남키, 체중 등

✨ 주요 확률분포 정리

  • 이산 확률분포
    • 이항분포 : 성공 / 실패가 있는 실험에서 일정 횟수 동안 성공 횟수를 나타낼 때 사용 (동전 던지기 등)
    • 포아송분포 : 특정 시간 또는 공간 안에서 특정 사건이 몇 번 발생할지를 나타낼 때 사용
  • 연속 확률분포
    • 정규분포(Nomal Distribution) : 평균값 주변에서 가장 많이 분포하며 좌우 대칭적인 형태(종모양)
    • 표준정규분포(Standard Normal) : 평균이 0, 표준편차가 1인 정규분포
    • 카이제곱, F분포, t분포 : 통계적 가설 검정 시 자주 사용되는 분포

5️⃣ 확률밀도함수 (PDF, Probability Density Function)

  • 연속 확률변수가 특정 구간 안에 속할 확률을 보여주는 함수
  • 예시
    • 정확히 특정 숫자(정확히 키가 170cm) 일 확률은 사실상 0에 가까움
    • 특정 구간 (170 ~ 180cm) 에 속할 확률을 보여줌
  • 정규분포의 확률밀도함수 형태
    • 평균 근처 값에서 확률이 높고, 평균에서 멀어질수록 점점 낮아지는 종 모양의 곡선 형태를 보임

6️⃣ 정규분포의 특징 및 중요성

  • 평균을 중심으로 좌우 대칭 형태를 가지고 있음
  • 평균(Mean), 중앙값(Median), 최빈값(Mode) 모두 일치
  • 많은 자연 현상들이 이 정규분포의 형태를 따름 (사람의 키, 시험 점수 등)
profile
Hello World

0개의 댓글