[data science] pandas - 이상점(Outlier) 찾기

덴장·2026년 4월 24일

data

목록 보기
36/55
  1. 이상점의 정의: 데이터셋에서 다른 데이터들과 동떨어져 있는 값들로, 분석 결과를 왜곡시킬 수 있음.

  2. 이상점 식별 방법: 박스 플롯을 활용해 1사분위수와 3사분위수 및 IQR(사분위 범위)을 통해 이상점을 식별.

  3. IQR을 이용한 이상점 판단 기준: 1사분위수에서 1.5 IQR보다 작거나 3사분위수에서 1.5 IQR보다 큰 값들을 이상점으로 분류.

  4. 코딩을 통한 이상점 식별: Pandas의 quantile 함수를 사용해 IQR을 계산하고, 불린 인덱싱으로 이상점을 추출.

  • IQR 구하기
  q1= airbnb_df['price'].quantile(0.25)

  q3= airbnb_df['price'].quantile(0.75)

  IQR = q3 - q1
  • 이상점구하기
lower_limit = Q1 - 1.5*IQR

upper_limit = Q3 + 1.5*IQR
  
airbnb_df['price'] < lower_limit

airbnb_df[airbnb_df['price'] < lower_limit] 	// 이상점
  
airbnb_df[airbnb_df['price'] > upper_limit]	//이상점
  
airbnb_df[(airbnb_df['price'] < lower_limit) | (airbnb_df['price'] > upper_limit)] // 이상점 - 위에 boolean 조건식을 합침
profile
개발자

0개의 댓글