기초 통계량1

김재민·2023년 7월 19일
0

FC AI 부트캠프 6기

목록 보기
1/3

평균의 종류

1. 산술평균 (arithmetic mean)

  • 주어진 수의 합을 수의 갯수로 나누는 일반적인 평균 (a+b) / 2

2. 기하평균 (geometric mean)

  • "증가율/변화율"을 구할 때 사용
// 시작 값을 1로 봤을 때 변화된 값 과의 비율을 구함
// 답의 소숫점 자리가 증가율을 의미

((after1/before1) * (after2/before2))^(1/2)

ex) (2 * 0.833)^(1/2) = 1.29
	평균 증가율 = 29%

3. 조화평균 (harmonic mean)

  • 같은 경로일 때 "평균 속력"을 구할 때 사용 (2ab) / (a+b)

분산과 표준편차

1. 편차 (deviation)

  • 관측값들이 평균으로부터 떨어진 정도 관측값 - 평균

2. 분산 (variance)

  • 편차 제곱의 평균 ((관측값 - 평균)^2 + (관측값 - 평균)^2) / 2

3. 표준편차 (standard deviation)

  • 분산의 양의 제곱근
  • 값이 작을수록 자료들이 평균에 모여있음 (분산)^(1/2)

사분위 범위(IQR)과 이상치 탐지

  • 사분위수 (Quartile) : 데이터를 같은 갯수를 가진 4개의 그룹으로 나누는 기준 값
  • 1사분위수 (Q1) : 25th percentile
  • 2사분위수 (Q2) : 중앙값 (median), 50th percentile
  • 3사분위수 (Q3) : 75th percentile
  • 사분위간 범위 (Interquartile Range, IQR) : Q3 - Q1
  • Minimum : Q1 - 1.5 * IQR
  • Maximum : Q3 + 1.5 * IQR
  • 이상치 (Outliers) : Min보다 작거나 Max보다 큰 값


변동계수

변동계수

  • 상대적으로 얼마나 변동이 많은지를 보기 위한 지표
  • 변동계수가 크다면 불안정함을 의미 변동계수 (CV) = 표준편차 / 평균

왜도와 첨도

1. 왜도 (Skewness)

  • 분포의 비대칭도를 나타내는 통계량
  • 비대칭이 커질수록 왜도의 절댓값 증가
  • -1 < 왜도 < 1 이면 치우침이 없는 데이터

2. 첨도 (Kurtosis)

  • 꼬리 길이와 뾰족함으로 데이터의 분포를 확인
  • Mesokurtic : 정규 분포
  • Leptokurtic : Mesokurtic보다 높고 뾰족함, 꼬리가 짧기 때문에 이상치(outlier)가 많을 수 있음
  • Platykurtic : Leptokurtic의 반대, 꼬리가 넓게 퍼져있기 때문에 이상치(outlier)가 없음, 데이터 재확인 필요

0개의 댓글