[데이터분석] 박스 플롯과 이상점

정만·2025년 3월 27일

데이터분석

목록 보기
28/61

박스 플롯

통계 정보와 분포를 시각적으로 보여주는 시각화 차트.
막대 그래프와 비슷하게 x축에는 대상을 두고 y축에 값을 두어 x축 대상 별로 y축 대표 값의 크기 차이를 보여줄 수 있다.

특징

  • 데이터의 분포와 이상치를 동시에 보여준다.
  • 서로 다른 데이터군을 쉽게 비교할 수 있다.
  • 데이터 전체의 편포 여부를 확인하기 쉽다.
  • 데이터의 집단 간 비교, 데이터의 타당도(validity)를 체크하기 쉽다.

이상점

데이터셋에 포함된 이상치를 시각적으로 나타낸 값.
이상점 중에서도 가장 바깥쪽에 위치한 데이터는 극단점이라고 한다.

이상점 탐지법

  • 박스플롯의 사분위 범위(IQR)를 이용하여 이상치 포함 여부를 확인한다.
  • IQR = Q3-Q1
  • 이상치 판단 기준은 Q1 - 1.5IQR 미만, Q3 + 1.5 IQR이상 에 해당되는 값이다.

실습

  • 선언
import pandas as pd
import matplotlib.pyplot as plt
  • 데이터 불러오기
df = pd.read_csv('Data/test_school.csv')
df

  • 통계요약 함수

    describe() : 컬럼 별 통계 요약 정보를 확인할 수 있다.

    예시

df['english_score'].describe()
  • 박스 플롯 시각화하기
df['english_score'].plot(kind = 'box')

  • IQR 구하기
q1 = df['english_score'].quantile(0.25)
q3 = df['english_score'].quantile(0.75)
iqr = q3 - q1

=> quantile() 함수로 구할 수 있다.

  • 1분위 수 값 구하기
q1 - 1.5 * iqr
  • 3분위 수 값 구하기
q3 +1.5 * iqr
  • 전체 데이터 시각화하기
df.plot(kind = 'box')

profile
멋있는 어른이 되고싶은 정만이의 벨로그

0개의 댓글