분산을 통해 평균을 중심으로 데이터가 얼마나 퍼져 있는지를 알 수 있다. 이때 제곱을 했기 때문에 값이 너무 커지는 문제가 있다. 그래서 분산의 결과에 루트를 사용해서 값을 낮추는데 그것이 표준편차이다. 즉, A회사의 표준편차는 2399가 되고 B회사의 표준편차는 457이 된다.
결과적으로 A회사의 평균연봉을 중심으로 값이 멀리 떨어져 있고 B회사는 평균연봉에 밀집되어 있는 것을 알 수 있다.
분산이 크다는 것은 평균으로부터 넓게 퍼져있다는 것
⑤ 변동계수
변동계수는 측정 단위가 다른 자료나 자료값의 차이가 너무 큰 경우에 사용한다.
변동계수를 다른말로 상대표준편차라고도 한다. 즉, 상대적인 산포를 계산한다.
변동계수 공식
CV=xˉσ
변동계수는 표준편차를 산술평균으로 나눈 것
그래프
히스토그램
각 구간별 현황 및 대칭 여부를 확인하기 위해서 히스토그램을 사용할 수 있다.
데이터의 이상값 유무를 확인 할 수 있다.
#정규분포에 맞게 임의의 난수를 생성
x1 <- rnorm(10000)# 히스토그램 생성
hist(x1)
상자그림
상자 그림은 대칭여부, 이상값, 자료의 분포를 확인 할 수 있다.
최대값, 최소값, 중위값 및 이상값을 확인 할 수 있다.
제1사분위수(Q1)
데이터의 25%가 이 값보다 작거나 같다.
제2사분위수(Q2)
중위수 데이터의 50%가 이 값보다 작거나 같다.
제3사분위수(Q3)
데이터의 75%가 이 값보다 작거나 같다.
사분위간 범위
제1사분위수와 제3사분위수 간의 거리(Q3-Q1)이고, 데이터 50%의 범위이다.
왼쪽 상자그림의 박스 길이가 짧으면 평균을 중심으로 데이터가 모여있다는 것이다.
오른쪽 상자그림처럼 박스 길이가 길면 평균을 중심으로 데이터가 퍼져있다는 것이다.
시계열 분석
시계열 데이터는 관측지가 시간적 순서를 가지고 있다.
시계열 데이터는 주가, 환율, 거래량 변동, 기온, 습도 변화 등의 데이터
시계열 분석은 시계열 데이터를 사용해서 추세분석, 원인 예측, 전망 등을 분석하는 것으로 즉, 시간에 흐름에 따라서 관찰되는 데이터인 시계열 데이터를 분석하는 것
시계열 데이터의 목적은 미래를 예측하는 것
시계열 데이터 구성요소
시계열 데이터 구성요소는 추세, 계절적 변동, 주기적 변경, 임의변동이 있다.
추세
기술 혁신, 인구증가, 문화의 변화 등과 같이 장기간에 걸쳐 일정한 방향으로 지속적으로 상승 또는 하강하는 것
계절적 변동
봄, 여름, 가을, 겨울에 따라서 특정 소비가 증가, 감소하는 형태로 나타난다.
주기적 변동
경기동향, 실업률, 이자율과 같이 일정한 주기를 가지고 장기간에 걸쳐 변동된다.
임의 변동
불규칙 변동이라고 하며 우연한 요인에 의해서 발생되기 때문에 패턴이 없다.
추세 분해 방법
Lowess/Loess 회귀
특정 범위에 다항 회귀선을 구하여 병합하는 방법
이동 평균
특정 기간 동안의 값의 평균변화를 분석
시계열 예측 분석
단순 이동평균
평활법이란, 불규칙한 변동을 평탄하게 하여 예측값을 구하는 방법
이동평균 중에서 추세가 없는 경우 적용
시계열의 평균수준이 시간과 관계 없이 변하기 않고 단지 불규칙 변동만을 포함하는 수평적 시계열 데이터에 적용
m기간 동안의 자료의 평균을 예측값으로 추정
가중 이동평균
단순 이동평균에 가중치가 반영된 것으로 m기간으로 설정하면 m기간의 값에 가중치를 곱해서 예측값이 m+1기간에 나타난다.
시계열의 평균수준이 시간과 관계없이 변하지 않고 단지 불규칙 변동만을 포함하는 수평적 시계열 데이터에 적용한다.
지수평활법
가중이동평균 방법과 매우 유사하지만 가중치가 과거로 올라갈수록 지수함수적으로 감소
과거의 모든 자료를 사용하고 장기적인 추세가 있는 경우에 사용
지수평활화 방법은 계절모형과 비계절모형으로 분류된다.
자기회귀모델
자기회귀, 자기 자신에 대한 변수의 회귀를 의미
자기회귀모델은 목표변수들의 선형조합을 이용하여 관심 변수를 예측하는 방법
변수들의 과거 값에 대해서 선형조합을 사용해서 관심 변수를예측
ARMA모형은 자기회귀모델과 이동평균모델을 사용한 것
백색잡음
시계열 데이터에서 특정 기준시점을 지정하고 기준시점과 이전과의 차이를 잡음이라고 한다.
자기상관이 없는 시계열을 백색잡음이라고 한다.
자기상관모형
자기상관이란 어떤 Random 변수에 대해서 이전의 값이 이후 값에 미치는 상황을 의미
예를 들어 이전 값이 크면 이후에는 낮은 값이 나온다는 경향을 의미
안정적 시계열
안정적이란, 평균과 분산 등의 통계적 특성이 변화되지 않는 데이터를 의미한다.
정적 데이터 모델링
평균, 분산 등의 통계적특성이 변화되지 않는 데이터를 의미
뚜렷한 추세를 확인할 수가 없다.
시간이 지나도 분포도에 변화가 없다.
정적 데이터 모델링
이동평균모델
T시점과 이전 시점들 사건의 영향의 가중평균
일반적으로 오래된 사건은 영향도가 낮아진다.
자가 회귀 모델
T시점의 값은 이전 특정 시점의 값에 영향을 준다.
자기상관함수, 자기부분 상관함수를 사용
자가회귀 이동평균 모델
자기 연관성과 자기 회귀성을 검사
비정적 데이터 모델링
ARIMA(Auto-regressive Integrated Moving Average)는 시계열 기법으로 과거 관측값과 오차를 사용해서 현재 시계열 값을 설명하는 것
ARIMA 모델은 안정적인 시계열 뿐만 아니라 비안정적에도 가능한 모델이다.
ARIMA 모델은 변동의 형태를 파악하여 변동 형태로 예측이 가능한 장점이 있다.
채권시강, 증권시장 등에서 많이 사용되고 있다.