대학생의 학점이 좋은 예이다. 2학점, 3학점짜리 강의를 여러 개 들었다면, 받은 학점의 산술평균이 아닌, 가중평균을 구한다.
기하평균(Geometric Mean)
참고) CAGR
기하평균을 쓰는 이유 : 우리가 쓰는 척도들이 단순 덧셈으로만 이루어져 있지 않고, 곱셈으로 이루어진 것들이 있기 때문.
이자율, 인구성장률, 경제성장률, 수익률과 같은 지표들은 곱셈으로 계산되었다. 따라서 이 지표들의 평균을 구할 땐 기하평균이 더 적합하다.
즉, 덧셈으로 계산된 지표는 산숦평균, 곱셈으로 계산된 지표는 기하평균이 적합하다.
예를 들어, 최근 3년간 투자를 해서 10%, 50%, 30%를 벌었다면, 최근 3년간의 평균 수익률은 기하평균으로 계산하면 0.29이지만, 산술평균으로 계산하면 0.3으로 현실을 과대평가한다.
조화평균(Harmonic Mean)
일정한 거리를 이동할 때, 평균속도를 구하는 데 이용함.
조화평균은 동일한 거리 혹은 동일한 금액이라는 조건에서 비중(속도나 가격)이 다른 여러 가지 요소를 결합하는 경우에 있어 평균을 도출하는데 사용된다.
만약 동일한 거리 혹은 동일한 금액이라는 조건이 충족되지 않으면 위의 공식을 바로 사용할 수 없다. 가중치를 주어야 하기 때문
이동평균(Moving Average)
주식과 같은 금융데이터들의 평균을 구할 때 쓰이는 방법.
6.1 단순이동평균(Simple Moving Average, SMA) : 이동하며 평균을 구하는 방식.
6.2 지수이동평균(Exponential Moving Average, EMA) : 단기변동성을 포착하기 위해 최근 값들에 가중치를 주는 방식.
반영되는 기간이 길수록 SMA와 EMA의 차이는 적어진다.
1.2 데이터의 분산
평균만으론 데이터가 흩어진 정도를 알 수 없기 때문에 최대값, 최소값, 분위수, 분산 등의 지표를 사용한다.
분위수 : n개의 데이터를 작은 수에서부터 큰 수의 순으로 늘어놓고, k등분했을 때 그 경계가 된 수치
편차 : 개별 데이터의 값과 평균의 차를 말한다.
분산 : 편차는 개별 데이터에 의해 계산되지만, 분산을 그것을 하나의 지표로 만든 것.
이상치 : 데이터의 평균에서 멀리 떨어져 있는 값.
1.3 데이터의 분산
변동계수 : 두 개의 데이터가 흩어진 정도를 비교하는 경우에 사용한다.
변동계수 = 표춘편차 / 평균
1.4 변수의 관련성
상관계수 : '한쪽이 증가하면, 다른 쪽도 증가한다', '한쪽이 증가하면, 다른 쪽은 감소한다'와 같은 직선적인 관계를 '상관'이라고 한다.
피어슨의 적률상관계수 : 상관의 정도를 나타내는 지표로 -1 ~ 1의 값을 갖는다.
1.5 변수의 관련성
순위상관 : 순위 데이터밖에 사용할 수 없는 경우나 두 변수 간에 곡선적인 관계가 상정되는 경우(산포도가 곡선)는 순위상관계수를 사용한다.
스피어만의 순위상관계수 : 순위 데이터에 대해 계산한 피어슨의 확률상관계수
켄달의 순위상관계수 : x에 대한 순위와 y에 대한 순위가 일치하는지의 여부에 주목해서 상관의 정도를 측정하는 지표