기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋
시각화의 중요성, 특이치 및 주영향관측값의 영향을 보여주기 위해 만들어진 데이터셋
앤스컴콰르텟_위키백과
import pandas as pd
import numpy as np
import seaborn as sns
df = sns.load_dataset("anscombe")
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/anscombe.csv")
df.head()

df.tail()

df.sample()

df.info()

df.describe

df.describe(include="object")

df.nunique()
-컬럼별 유일값 개수

df["dataset"].unique()
-"dataset" 컬럼의 유일값 출력

"dataset" 컬럼에 따라 네 가지 데이터셋으로 나눈다.
# bool indexing 이용하기
df_1 = df[df["dataset"] == "I"]
df_2 = df[df["dataset"] == "II"]
df_3 = df[df["dataset"] == "III"]
df_4 = df[df["dataset"] == "IV"]
describe()


describe(include="object")

corr()

df["dataset"].value_counts()

df["dataset"].value_counts(normalize=True)
-빈도수의 비율 구하기

df.groupby("dataset").describe()

df.groupby("dataset").corr()
