데이터 프레임을 사용하여, 데이터 조작 및 분석에 사용
import pandas as pd
#데이터 부러오기
df = pd.read_csv('data.csv'
#데이터 확인
print(df.head())
print(df.info())
print(df.describe())
시각화에 유용한 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns
# 히스토그램: 데이터 분포 확인
sns.histplot(df['age'])
plt.show()
# 상자 그림(Box Plot): 이상치 탐색
sns.boxplot(x='age', data=df)
plt.show()
# 산점도: 두 변수 간의 관계
sns.scatterplot(x='age', y='income', data=df)
plt.show()
# 상관관계 히트맵
corr = df.corr() # 변수 간의 상관계수 계산
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()
배열 연산 및 수치 연산에 특화
import numpy as np
# 결측치 처리
df['age'] = df['age'].replace(np.nan, df['age'].mean()) # 결측치를 평균값으로 대체
통계 분석과 과학 계산
from scipy import stats
# 정규성 검정 (Normality Test)
k2, p = stats.normaltest(df['age'])
if p < 0.05:
print("정규 분포가 아님")
else:
print("정규 분포임")
#데이터셋 불러오기
df = pd.read_csv('data.csv')
#데이터 기본 정보 확인
print(df.info())
print(df.describe()) #수치형 데이터 요약 통계
print(df.isnull().sum()) #결측치 확인
# 변수별로 기술 통계량 계산
print(df['age'].mean()) # 평균값
print(df['age'].median()) # 중앙값
print(df['age'].std()) # 표준편차
# 결측치 확인
print(df.isnull().sum())
# 결측치를 평균값으로 채우기
df['age'] = df['age'].fillna(df['age'].mean())
# 상자 그림으로 이상치 확인
sns.boxplot(df['age'])
plt.show()
# IQR 방식으로 이상치 제거
Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
df_cleaned = df[~((df['age'] < (Q1 - 1.5 * IQR)) | (df['age'] > (Q3 + 1.5 * IQR)))]
# 상관계수 계산 및 히트맵 시각화
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()
# 산점도
sns.scatterplot(x='age', y='income', data=df)
plt.show()