표준편차 (Standard Deviation): 분산의 제곱근으로, 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 지표이다.
분산 (Variance): 데이터의 퍼짐 정도를 나타내는 지표로, 편차의 제곱의 평균이다.
import pandas as pd
# 예제 데이터 생성
data = {'수학': [90, 80, 70], '영어': [98, 88, 95], '음악': [85, 95, 100], '체육': [100, 90, 90]}
df = pd.DataFrame(data, index=["홍길동", "이몽룡", "김삿갓"])
# 표준편차와 분산 계산
print("표준편차:\n", df.std())
print("분산:\n", df.var())
기술 통계에는 평균, 표준편차, 최소값, 25%, 50%, 75% 백분위수, 최대값 등이 포함된다.
df.describe()
# 수학 열의 통계 정보만 조회
df.describe()["수학"]
외부 파일을 불러와서 DataFrame으로 변환한 후, 데이터 처리를 수행
import pandas as pd
df = pd.read_csv("data/jeju1.csv")
df.info() # 데이터 정보 확인
df.head() # 상위 5개 데이터 조회
df.tail() # 하위 5개 데이터 조회
df.set_index("장소", inplace=True) # 장소 컬럼을 인덱스로 설정
df["여행지"] = df.index # 인덱스를 여행지 컬럼으로 추가
df.reset_index(inplace=True) # 인덱스를 다시 컬럼으로 변경
df.drop("장소", axis=1, inplace=True) # 장소 컬럼 삭제
df.to_csv("data/df_jeju1.csv", index=False) # 인덱스 제외하고 저장