df.tail(5) : 마지막 5개 출력 df.info() : 데이터프레임의 요약된 설계도 -> 중요한 정보 확인 가능
Non-Null Count : 결측치 (Missing Value) 개수 알 수 있음 df.describe(): 평균, 최소, 최댓값 등 실제 수치 정보를 알 수 있음
Correlationi Coefficient (상관계수) : 두 변수가 얼마나 상관이 있는지, 수치로 출력하는 것
상관계수는 -1 ~ 1 사이의 값을 갖는다.
+1 : 완전한 야의 상관 관계 0 : 상관 없음-1 : 완전한 음의 상관 관계 import numpy as np
import seaborn as sns
df = sns.load_dataset("mpg")
# 상관계수 행렬 계산
corr = df.corr(numeric_only=True)
print(corr)
# 히트맵 출력
sns.heatmap(corr, annot=True, cmap="coolwarm", linewidths=1)
print()

import numpy as np
import seaborn as sns
df = sns.load_dataset("mpg")
# 상관계수 행렬 계산
# 데이터에서 숫자끼리만 계산하라는 뜻
corr = df.corr(numeric_only=True)
# 삼각형 마스크 만들기 (상단 삼각형 가리기)
mask = np.triu(np.ones_like(corr, dtype=bool))
print(mask)
# 히트맵 출력
sns.heatmap(corr, mask=mask, annot=True, cmap="coolwarm", linewidths=1)
print()

import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset("mpg")
# 마력에 결측치 제거 (pairplot은 결측치(NaN)값 있으면 에러 납니다.)
df = df.dropna(subset=["horsepower"]) # dropna (na는 not available): 결측치 제거
# pairplot 시각화
help(sns.pairplot)
sns.pairplot(df[["weight", "horsepower", "acceleration"]], corner=True, kind="reg", plot_kws={'line_kws': {'color': 'red'}}, diag_kind='kde')
print()
