Typical Value and Variability

pDestiny·2022년 7월 25일
0

Statistics

목록 보기
1/4

데이터를 맨 처음 다루게 됐을 때, 가장 먼저 해보게 되는게 바로 평균과 분산을 구하는 것이다. 평균과 분산은 우리에게 이미 너무나도 익숙하다.

평균

μ=inxin\mu = \frac{\sum_i^nx_i}{n}

분산

σ2=in(xμ)2n1\sigma^2 = \frac{\sum_i^n (x - \mu)^2}{n-1}

하지만 이들만으로 정말 우리가 가지고 있는 데이터를 대표할 수 있을것인가? 그렇지 않다. 복병은 outlier, 즉 특이값들에 의해 평균과 분산이 왜곡 될 수 있다는 점이다. 특이값에 휘둘리지 않는(robust)한 방법들을 typical value와 variability의 뷰에서 소개하고자 한다.

1. Typical Value

1.1 절사 평균

절사 평균은 모든 값을 평균을 내지 않고, 데이터를 정렬하고 가장 작은 값과 가장 큰값을 제외한 후에 평균을 내는 방식이다.

절사평균 공식

xˉ=i=p+1npxin2p\bar{x} = \frac{\sum_{i=p+1}^{n-p}x_i}{n-2p}

대표적인 예로 다이빙 선수의 점수를 매길 때, 5명의 심사위원이 있으면, 가장 높은 점수를 매긴 심사위원과 가장 낮은 점수를 매긴 심사위원을 제외한 3명의 점수의 평균으로 다이빙 선수의 점수를 매긴다.

1.2 가중 평균

만일 데이터가 특정하게 편중되어 있다면 어떻게 해야 할까? 예를 들면, 어떤 값들의 변화량이 특정 값에 비해 유난히 크다면? 혹은 두 그룹의 데이터의 수가 차이가 난다면? 이럴 때 데이터에 가중치를 주고, 가중치를 변수에 곱한 값의 합을 가중치의 합으로 나누어주면 가중평균을 구할 수 있으며, 편중을 막을 수 있다.

가중평균 공식

xˉw=i=1nwixiinwi\bar{x}_w = \frac{\sum_{i=1}^nw_ix_i}{\sum_i^nw_i}

2. Variability

통계의 핵심은 변이에 있다고 한다. 즉, 데이터가 어떻게 퍼져 있는지(dispersion)을 확인하는 것이 통계에서의 중요한 요소라는 것이다. 이를 위해 분산을 구하며, 분산이 너무 커지니, 표준편차로 분산에 루트를 씌워 dispersion 정도를 추정하는 값을 얻으려 한다.

2.1 평균절대편차(mean absolute deviation)

이건 L1-norm과 같다. 편차의 절대값의 합의 평균이다.

평균절대편차

L1norm=i=1nxiμnL1_{norm} = \frac{\sum_{i=1}^n|x_i - \mu|}{n}

2.2 중위절대편차(Median Absolute Deviation)

중앙값이 특이값에 robust하다는 특징을 기반으로 만들어진 방법론으로 중앙값으로부터의 편차의 중앙값을 계산한다.

MAD=Median({x1m,x2m,...,xnm}) where m is medianMAD = Median(\left\{|x_1 - m|, |x_2 - m|,...,|x_n - m| \right\}) \text{ where } m \text{ is median}

참고할 점은 중위절대편차는 데이터가 정규분포를 따를 때, scaling factor(보통 1.4826)를 곱해서 표준편차와 같은 척도에서 사용 가능하다.

2.3 IQR(Inter Quantile Range)

절삭평균과 비슷하게 IQR은 백분위에서 25%에 해당하는 값과, 75%에 해당하는 값의 차이를 의미하여 특이값에 robust하게 데이터의 dispersion을 측정할 수 있다. 백분위의 내용은 순서대로 데이터를 죽 세웠을 때, 작은 값부터 큰값까지 가며, n%에 해당하는 값에 왔을때, 그 값이 n% 백분위에 해당하는 값을 가지게 된다. 그런데, 이 정의대로라면 짝수 일 경우 문제가 생기게 된다. numpy에서는 선형보간법을 이용해 이 문제를 해결한다.

선형보간법
위치 p1, p2가 있을 때, p1과 p2 사이의 값 p를 구하기 위해 p와 p1, p2 사이의 거리 d1,d2를 이용해 직선거리에 따라 선형적으로 계산하는 방법을 의미한다.

f(p)=d1d1+d2f(p1)+d2d1+d2f(p2)f(p) = \frac{d_1}{d_1 + d_2}f(p_1) + \frac{d_2}{d_1 + d_2}f(p_2)

profile
Bioinformatician

0개의 댓글