범주형과 수치형변수를 박스플롯으로 그리고 사분위 수와 이상치를 알아봅니다.
boxplot과 사분위수
df.groupby()
범주형과 수치형변수를 박스플롯으로 그리고 사분위수와 이상치를 알아보기
boxplot과 사분위수를 알아보고 boxplot 내부에 사분위수가 어떻게 표현되는지 알아보기
df.groupby().describe()를 통해 범주형 값으로 그룹화를 하고 개별 범주 값에 대한 기술 통계값을 구해 boxplot과 비교
boxplot와 사분위수
# boxplot 으로 origin 별 mpg 의 기술통계 값 구하기
sns.boxplot(data=df, x="origin", y="mpg")
# groupby로 origin 값에 따른 mpg의 기술통계 구하기
# 결과를 변수에 할당하여 재사용하기
origin_desc= df.groupby("origin")["mpg"].describe()
origin_desc
박스플롯 이해하기
europe = origin_desc.loc["europe"]
europe
# IQR, 이상치를 제외한 최댓값, 최솟값 구하기
Q3 = europe["75%"]
Q1 = europe["25%"]
IQR = Q3 - Q1
OUT_MAX = Q3 + (1.5 * IQR)
OUT_MIN = Q1 - (1.5 * IQR)
OUT_MAX, OUT_MIN #(40.625, 14.0250000000000002)
*boxenplot로 그리기
# boxenplot 그리기
sns.boxenplot(data=df, x="origin", y="mpg")
*violinplot 그리기
# violinplot 그리기
sns.violinplot(data=df, x="origin", y="mpg")