기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋
시각화의 중요성, 특이치 및 주영향관측값의 영향을 보여주기 위해 만들어진 데이터셋
앤스컴콰르텟_위키백과
import pandas as pd
import numpy as np
import seaborn as sns
df = sns.load_dataset("anscombe")
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/anscombe.csv")
df.head()
df.tail()
df.sample()
df.info()
df.describe
df.describe(include="object")
df.nunique()
-컬럼별 유일값 개수
df["dataset"].unique()
-"dataset" 컬럼의 유일값 출력
"dataset" 컬럼에 따라 네 가지 데이터셋으로 나눈다.
# bool indexing 이용하기
df_1 = df[df["dataset"] == "I"]
df_2 = df[df["dataset"] == "II"]
df_3 = df[df["dataset"] == "III"]
df_4 = df[df["dataset"] == "IV"]
describe()
describe(include="object")
corr()
df["dataset"].value_counts()
df["dataset"].value_counts(normalize=True)
-빈도수의 비율 구하기
df.groupby("dataset").describe()
df.groupby("dataset").corr()