파이썬은 데이터 과학 및 통계 분석 분야에서 강력한 도구로 사용된다. 여기서는 실전 통계 분석의 기초적인 부분을 맛보기로 다루어보겠다. 사용할 패키지는 SciPy(특히 t검정), Pandas(상관관계 분석), Statsmodels(회귀 분석)이다.
t검정은 두 집단 간 평균의 차이가 통계적으로 유의미한지를 판단하는 방법이다. 여기서는 SciPy의
ttest_ind
함수를 사용하여 독립적인 두 샘플 간의 t검정을 수행한다.
from scipy import stats
import numpy as np
# 임의의 데이터 생성
group1 = np.random.normal(100, 10, 30)
group2 = np.random.normal(90, 10, 30)
# 두 집단의 t검정 수행
t_stat, p_val = stats.ttest_ind(group1, group2)
print(f"T-Statistic: {t_stat}, P-Value: {p_val}") # T-Statistic: 4.0490115095820665, P-Value: 0.00015445468792583082
Pandas를 사용하여 데이터 프레임 내의 두 변수 간 상관관계를 분석할 수 있다.
corr()
메서드를 활용하여 Pearson 상관 계수를 계산한다.
import pandas as pd
# 샘플 데이터 생성
data = {'변수1': np.random.rand(100), '변수2': np.random.rand(100)}
df = pd.DataFrame(data)
# 변수1과 변수2의 상관관계 계산
correlation = df['변수1'].corr(df['변수2'])
print(f"상관 계수: {correlation}") # 상관 계수: -0.07927995781498359
Statsmodels는 추정 및 추론을 위한 다양한 통계 모델을 제공한다. 여기서는 선형 회귀 분석을 간단하게 수행해본다.
import statsmodels.api as sm
# 회귀 분석을 위한 샘플 데이터
X = np.random.rand(100, 1) # 독립 변수
y = 2 * X + np.random.normal(0, 0.1, (100, 1)) # 종속 변수
# OLS 회귀 모델 적합
model = sm.OLS(y, sm.add_constant(X)).fit()
# 결과 출력
print(model.summary())
이렇게 파이썬의 다양한 패키지들을 사용하여 실전 통계 분석의 기초를 실습할 수 있다. 통계 분석은 이론적 배경 지식과 함께 실제 데이터에 적용하면서 더 깊이 이해할 수 있다.