데이터분석 - 기초통계

이영진·2025년 3월 17일
0

데이터 분석 및 기초통계

1. 확률과 확률분포

확률 (Probability)

확률은 동일한 원인에서 특정한 결과가 나타나는 비율을 의미합니다. 이는 데이터 분석에서 결과를 예측하거나 불확실성을 수치화하는 데 사용됩니다.

확률분포 (Probability Distribution)

확률분포는 확률 변수 XX의 함수로, 표본의 크기가 클수록 표본 집단의 평균 xx의 확률 분포가 정규분포에 가까워지는 경향이 있습니다. 이는 중심극한정리(Central Limit Theorem)에 기반합니다.


2. 정규분포와 표준정규분포

정규분포 (Normal Distribution)

  • 봉우리가 하나이며 좌우 대칭이고 종 모양인 곡선.
  • 확률밀도함수:
    f(x)=12πσe(xμ)22σ2,<x<f(x) = \frac{1}{\sqrt{2 \pi \sigma}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}, -\infty < x < \infty
  • 간단하게 N(μ,σ2)N(\mu, \sigma^2)로 표기.

특징

  1. 평균 μ\mu를 중심으로 좌우 대칭.
  2. x=μx = \mu에서 곡선값이 최대가 되며, μ=\mu = 중앙값 == 최빈값.
  3. 양쪽 꼬리부분은 x축으로 점점 접근.
  4. 곡선과 x축 사이의 면적은 1.

표준정규분포 (Standard Normal Distribution)

정규분포를 평균이 0이고 표준편차가 1인 형태로 표준화한 분포입니다. 이는 ZZ-변환을 통해 데이터를 표준화하여 분석에 활용됩니다.


3. 데이터 변환

Scaling

데이터 변환은 단위가 다른 데이터나 분포를 비교하기 위해 필수적입니다.

주요 기법

  1. ZZ-변환: 데이터를 평균 0, 표준편차 1로 변환하여 표준화.
  2. Min-Max Scaler: 최소값과 최대값을 기준으로 데이터를 0~1 사이로 변환.
  3. 로그/제곱근 변환: 한쪽으로 치우친 데이터를 대칭 분포로 변환.
    • 방향성이 중요한 경우 11-1 \sim 1 사이 값을 갖도록 변환.

4. 상관관계와 인과관계

상관관계 (Correlation)

두 변수 간의 선형적인 관계를 나타내며, 한쪽이 증가함에 따라 다른 쪽이 증가하거나 감소하는 경향을 설명합니다.

  • 연속형 데이터에서만 사용 가능.

유의사항

  • 상관관계는 인과관계를 의미하지 않음.
  • Outlier에 민감하므로 제거 후 분석 필요.
  • 교란 요인을 고려해야 함.

상관계수의 활용

  1. 회귀분석: 변수 간 선형 상관관계를 수식화.
  2. 요인분석: 상관도가 높은 변수들을 묶어 차원을 축소.
  3. 시계열분석: 동일 변수의 시차 간 자기 상관관계를 기반으로 패턴 도출.
  4. 구조방정식 모형: 인과관계를 기반으로 Path와 가중치 도출.

5. 교차분석과 유의수준

교차분석 (Cross Analysis)

모집단에서 추출한 표본 자료를 두 가지 기준에 따라 행과 열로 분류하여 작성한 통계표입니다.

유의수준 (Significance Level)

데이터가 통계적으로 유의미하다고 판단할 기준 수준입니다.

  • 데이터가 클수록 p-value 값이 작게 나오므로 전적으로 의존하면 안 됩니다.
  • 실무에서는 가설 설정보다는 데이터 특징 파악과 모델 정확성 향상에 중점을 둡니다.

6. 회귀분석

회귀분석 (Regression Analysis)

회귀분석은 독립변수가 종속변수에 미치는 영향을 분석하는 방법입니다.

특징

  • 두 변수 간의 인과 관계를 '회귀식'으로 표현.
  • 설명력(결정계수), 유의확률 등을 통해 결과 해석.

실무 적용

  • 독립변수 간 강한 상관관계를 제거하여 다중공선성 문제 해결.
  • 라쏘(Lasso), 릿지(Ridge)를 통해 변수 선택 진행.

성능 평가 지표

지표설명해석
R2R^2모델 설명력을 나타내며, 0~1 사이 값으로 측정됨1에 가까울수록 좋음
MSE평균제곱오차로 예측값과 실제값 간 차이를 측정0에 가까울수록 오차 적음
RMSE평균제곱근오차로 예측값과 실제값 간 차이를 측정0에 가까울수록 좋음
MAPE평균절대비율오차로 상대 오차/편차 크기를 나타냄값이 작을수록 좋음

7. 로지스틱 회귀분석

로지스틱 회귀분석 (Logistic Regression)

범주형 데이터를 분류하는 데 사용되며, 결과를 010 \sim 1 사이 값으로 제한하여 확률적으로 해석할 수 있습니다.

필요성

  • 현실 문제 해결 시 일정 범위를 벗어나지 않도록 제한 가능.
  • 임계치 기준(0.5)은 최적화를 통해 변경 가능.

마무리

이번 포스팅에서는 데이터 분석 및 기초통계 내용을 정리했습니다. 각 개념은 실무와 이론에서 중요한 역할을 하며, 이를 이해하고 활용하면 더 나은 분석 결과를 도출할 수 있습니다.

궁금한 점이나 추가적인 설명이 필요한 부분은 댓글로 남겨주세요! 😊

0개의 댓글