Python 12일차

조영훈·2024년 8월 17일

Python

목록 보기
12/16
post-thumbnail

Pandas 활용 정리(2)


1. 표준편차와 분산

  • 표준편차 (Standard Deviation): 분산의 제곱근으로, 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 지표이다.

  • 분산 (Variance): 데이터의 퍼짐 정도를 나타내는 지표로, 편차의 제곱의 평균이다.

import pandas as pd

# 예제 데이터 생성
data = {'수학': [90, 80, 70], '영어': [98, 88, 95], '음악': [85, 95, 100], '체육': [100, 90, 90]}
df = pd.DataFrame(data, index=["홍길동", "이몽룡", "김삿갓"])

# 표준편차와 분산 계산
print("표준편차:\n", df.std())
print("분산:\n", df.var())



2. 기술 통계 조회

기술 통계에는 평균, 표준편차, 최소값, 25%, 50%, 75% 백분위수, 최대값 등이 포함된다.

df.describe()

# 수학 열의 통계 정보만 조회
df.describe()["수학"]



3. 외부 파일 불러오기 및 저장하기

외부 파일을 불러와서 DataFrame으로 변환한 후, 데이터 처리를 수행

csv파일 불러오기

import pandas as pd

df = pd.read_csv("data/jeju1.csv")
df.info()  # 데이터 정보 확인
df.head()  # 상위 5개 데이터 조회
df.tail()  # 하위 5개 데이터 조회

인덱스 설정 및 컬럼 조작

df.set_index("장소", inplace=True)  # 장소 컬럼을 인덱스로 설정
df["여행지"] = df.index  # 인덱스를 여행지 컬럼으로 추가
df.reset_index(inplace=True)  # 인덱스를 다시 컬럼으로 변경
df.drop("장소", axis=1, inplace=True)  # 장소 컬럼 삭제

CSV 파일로 저장

df.to_csv("data/df_jeju1.csv", index=False)  # 인덱스 제외하고 저장
profile
개발 꿈나무

0개의 댓글