왜도와 첨도

leegahee·2025년 1월 11일

개념정리

목록 보기
8/17

왜도(Skewness)란?

분포의 비대칭정도를 나타내는 지표
평균을 기준으로 어느방향으로 얼마나 치우쳐져있는가를 나타낸다
왜도 < 0 : 음의 왜도(왼쪽)
왜도 = 0 : 정규분포
왜도 > 0 : 양의 왜도(오른쪽)

  • 장점
    데이터의 비대칭, 이상치,편향을 탐지하기 좋다

  • 데이터가 치우쳐져있을때 처리방법

  1. 로그변환
    : 데이터값이 0이상인 경우
data = np.random.exponential(scale=2.0, size=1000)  # 양의 왜도 데이터
log_transformed = np.log1p(data)  # 로그 변환

  1. 제곱근 변환
data = np.random.exponential(scale=2.0, size=1000) # 양의 왜도 데이터
sqrt_transformed = np.sqrt(data) # 제곱근 변환

  1. 박스콕스변환
data = np.random.exponential(scale=2.0, size=1000)

# 박스-콕스 변환
data_positive = data + 1e-5  # 0 이상이어야 함
boxcox_transformed, lambda_val = boxcox(data_positive)

  1. 데이터 자르기
# 극단값 포함 데이터 생성
data = np.random.normal(loc=0, scale=1, size=1000)
data = np.append(data, [10, 15, -10, -15])  # 극단값 추가

# 데이터 자르기
clipped_data = np.clip(data, -3, 3)

첨도(Kurtosis)란?

분포의 꼬리의 두껍고 뾰족한 정도를 나타내는 지표

  • 장점
    꼬리부분 분석, 이상치 탐지
    첨도 < 3 : 음의 첨도(꼬리가 얇고 분포가 평평)
    첨도 = 3 : 정규분포
    첨도 > 3 : 양의 첨도(꼬리가 두껍고 분포가 뾰족)

0개의 댓글