판다스를 활용한 통계 데이터 다루기

Plcb Archive·2024년 2월 5일
0

파이썬

목록 보기
17/22
post-custom-banner

판다스를 활용한 통계 데이터 다루기

데이터 불러오기

판다스를 사용하여 통계 데이터를 다루기 위해서는 먼저 데이터를 불러와야 한다. 이 예시에서는 간단한 데이터 셋을 생성하여 사용한다.

import pandas as pd

# 샘플 데이터 생성
data = {
    '이름': ['홍길동', '김철수', '이영희', '박지민'],
    '수학': [90, 85, 88, 95],
    '영어': [85, 90, 75, 100],
    '과학': [95, 88, 92, 88]
}

df = pd.DataFrame(data)

기본 통계 정보

판다스의 describe() 메서드를 사용하면 데이터의 기본적인 통계 정보를 빠르게 확인할 수 있다.

print(df.describe())
#               수학         영어        과학
#count   4.000000    4.00000   4.00000
#mean   89.500000   87.50000  90.75000
#std     4.203173   10.40833   3.40343
#min    85.000000   75.00000  88.00000
#25%    87.250000   82.50000  88.00000
#50%    89.000000   87.50000  90.00000
#75%    91.250000   92.50000  92.75000
#max    95.000000  100.00000  95.00000

이 메서드는 각 열에 대해 개수, 평균, 표준편차, 최소값, 25% 분위수, 중간값(50% 분위수), 75% 분위수, 최대값을 제공한다.

특정 열에 대한 통계 정보

특정 열에 대한 통계 정보를 얻고 싶다면 다음과 같이 할 수 있다.

# '수학' 점수의 평균
print(df['수학'].mean()) # 89.5

# '영어' 점수의 최대값
print(df['영어'].max()) # 100

# '과학' 점수의 표준편차
print(df['과학'].std()) # 3.4034296427770228

그룹별 통계

데이터를 그룹으로 나누어 통계를 내고 싶을 때는 groupby() 메서드를 사용한다. 여기서는 간단한 예시로 '성별' 열을 추가하고, 성별에 따른 점수의 평균을 구해본다.

df['성별'] = ['남', '남', '여', '여']

# 성별에 따른 평균 점수
print(df.groupby('성별').mean())

이렇게 판다스는 데이터의 통계적 분석을 위한 다양한 기능을 제공한다. 데이터의 기본적인 요약 통계부터 복잡한 그룹별 분석까지 다양한 작업을 쉽게 처리할 수 있다.

post-custom-banner

0개의 댓글