박스플롯과 이상점

ricecakeblack·2024년 9월 24일
0
post-thumbnail

  • mode 최빈값
  • mean 평균값
  • median 중간값 = Q2

박스플롯 그리기

df.plot(kind = 'box')
plt.show()

박스플롯

  • IQR의 범위 = 3사분위수 - 1사분위수

1사분위수, 3사분위수, IQR 만드는 방법

  • q1 = df[].quantile(0.25)
  • q3 = df[].quantile(0.75)
  • IQR = q3 - q1

IQR 수치로 보기

  • 1분위에는 q1 - iqr * 1.5
  • 3분위에는 q3 + iqr * 1.5

정상범위는 38.75 ~ 88.75
나머지값은 이상치

그래프해석

  • box plot 의 중간값(초록)이 영<수<과로 높음 상대적으로 쉬움
  • 과학은 박스플롯이 상대적으로 높은것으로 보아 학생들의 점수가 잘 나온것을 알 수 있음.
  • IQR의 길이와 whisker의 길이가 비교적 긴 수학의 경우 학생들의 점수 분포가 다양함을 알 수 있음.
  • 영어의 중간값(초록)은 25% - 50%의 구간이 짧고 50% - 75%의 구간이 길기에(둘의 데이터 수는 같음) Q1에 점수차가 작은 값들이 몰려있음을 알 수 있음.
  • 수학의 경우 50% ~ 75% 구간에 데이터가 많이 몰려있음을 알 수 있음.

범주형데이터의 경우 -> 최빈값

범주형이 아닐경우

df. describe(include= 'all')


top = 최빈값
freq = 최빈값이 등장하는 빈도

0개의 댓글

관련 채용 정보