판다스를 사용하여 통계 데이터를 다루기 위해서는 먼저 데이터를 불러와야 한다. 이 예시에서는 간단한 데이터 셋을 생성하여 사용한다.
import pandas as pd
# 샘플 데이터 생성
data = {
'이름': ['홍길동', '김철수', '이영희', '박지민'],
'수학': [90, 85, 88, 95],
'영어': [85, 90, 75, 100],
'과학': [95, 88, 92, 88]
}
df = pd.DataFrame(data)
판다스의 describe()
메서드를 사용하면 데이터의 기본적인 통계 정보를 빠르게 확인할 수 있다.
print(df.describe())
# 수학 영어 과학
#count 4.000000 4.00000 4.00000
#mean 89.500000 87.50000 90.75000
#std 4.203173 10.40833 3.40343
#min 85.000000 75.00000 88.00000
#25% 87.250000 82.50000 88.00000
#50% 89.000000 87.50000 90.00000
#75% 91.250000 92.50000 92.75000
#max 95.000000 100.00000 95.00000
이 메서드는 각 열에 대해 개수, 평균, 표준편차, 최소값, 25% 분위수, 중간값(50% 분위수), 75% 분위수, 최대값을 제공한다.
특정 열에 대한 통계 정보를 얻고 싶다면 다음과 같이 할 수 있다.
# '수학' 점수의 평균
print(df['수학'].mean()) # 89.5
# '영어' 점수의 최대값
print(df['영어'].max()) # 100
# '과학' 점수의 표준편차
print(df['과학'].std()) # 3.4034296427770228
데이터를 그룹으로 나누어 통계를 내고 싶을 때는 groupby()
메서드를 사용한다. 여기서는 간단한 예시로 '성별' 열을 추가하고, 성별에 따른 점수의 평균을 구해본다.
df['성별'] = ['남', '남', '여', '여']
# 성별에 따른 평균 점수
print(df.groupby('성별').mean())
이렇게 판다스는 데이터의 통계적 분석을 위한 다양한 기능을 제공한다. 데이터의 기본적인 요약 통계부터 복잡한 그룹별 분석까지 다양한 작업을 쉽게 처리할 수 있다.