사분위수란? (박스 그래프란?)

minsing-jin·2024년 10월 20일
0

EDA마스터 여정

목록 보기
1/2
post-thumbnail

동기

항상 박스형 그래프가 나오면 뭐지 하면서 넘어가는게 있었는데 이번 기회에 뽀개보자! Q1 Q2가 뭐지 이랬는데 아래의 칸 아카데미라는 GOAT설명이 있어서 이해가 가능하게 되었다.

사분위수 범위란 (IQR) & 박스형 그래프 해석

  1. 자료들의 중앙값을 구한후
  2. [최소값 | 중앙값] | [중앙값 | 최댓값] 의 중앙값을 각각 구하기
  3. 2번의 값의 범위 [최소값 | 중앙값] | [중앙값 | 최댓값] 들의 중앙값의 range가 Q1과 Q3이다
  4. 사분위수 범위는 중앙값을 기준으로 나눈 두 그룹의 중앙값 평균의 차이
    -> 즉 50% 이상의 자료값들은 Q1과 Q3사이에 분포한다.
  5. 박스 양쪽 수염은 자료들의 최댓값

중앙값: 중앙값은 평균이 아니라 자료 개수중 중앙에 있는 개수, 데이터 개수가 짝수라면 중앙값은 가운데 두 수의 평균이다.

이상치 (Outliar란?)

  • 박스형 그래프에서 수염 바깥쪽 (Q1 - 1.5 IQR) or (Q3 + 1.5 IQR) 값의 바깥에 있는 녀석들이다.
  • 애플워치 같은 사람의 움직임을 측정할때 아웃라이어를 제거하거나 활용할 수 있다.
  1. GOAT Reference: https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/range-and-interquartile-range-worksheet
  2. 적용 사례:
    2-1. https://hsm-edu.tistory.com/1542
    2-2 Python. https://aliencoder.tistory.com/36
profile
why not? 정신으로 맨땅에 헤딩하고 있는 코린이

0개의 댓글