통계 정보와 분포를 시각적으로 보여주는 시각화 차트.
막대 그래프와 비슷하게 x축에는 대상을 두고 y축에 값을 두어 x축 대상 별로 y축 대표 값의 크기 차이를 보여줄 수 있다.
특징
데이터셋에 포함된 이상치를 시각적으로 나타낸 값.
이상점 중에서도 가장 바깥쪽에 위치한 데이터는 극단점이라고 한다.
이상점 탐지법
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('Data/test_school.csv')
df

통계요약 함수
describe() : 컬럼 별 통계 요약 정보를 확인할 수 있다.
예시
df['english_score'].describe()
df['english_score'].plot(kind = 'box')

q1 = df['english_score'].quantile(0.25)
q3 = df['english_score'].quantile(0.75)
iqr = q3 - q1
=> quantile() 함수로 구할 수 있다.
q1 - 1.5 * iqr
q3 +1.5 * iqr
df.plot(kind = 'box')
