아리마 시계열 분석 결과를 회귀분석의 기본 가정을 잣대로 들이밀며 비평하는 문제가 있다.
원인변수로 중요한 xx 변수가 왜 빠졌는가?
아리마의 교란항과 회귀분석의 오차항을 구분하지 못하는 경우
특히 시계열 모형의 자동회귀 요인과 이동평균 요인에 대해 이해하지 못하는 경우
등...
아리마 분석 기법을 제대로 이해하기 위한 기초 지식으로
첫째 목차에선 변수와 인과관계에 대해서 간략히
둘째 목차에선 시간의 개념과 속성에 관하여 간단히
셋째 목차에선 회귀분석의 기본 가정이 어긋났을 때 이를 진단하는 방법과 해결하는 방법
넷째 목차에선 시계열 분석의 의미와 기본 모형의 가정과 문제점과 대책을 설명한다.
...
그 외로 한자어 대신 한글로 표현하겠다고 하는데 -_- ;;; ( 책 잘못샀다는 느낌이 든다 )
예를 들면
참고)
명목변수 : label encoded
순서변수 : 상대적 위치만 표현, 절대적 양 표현 X
간격변수 : 등간격. 더하기 빼기는 가능한데, 절대적인 0이 존재하지 않아서 곱하기 나눗셈 X
비율변수 : 등간격이면서, 절대 영점 존재.
두 변수 사이에 인과관계가 있는지 여부는 이론에 바탕을 두고 검증을 통해서 이루어진다.
인과관계의 증명만 된다면, 원인으로 결과를 설명할 수 있다.
여기서 설명이란 왜 일어났는가? 에 대한 답이다.
이러한 인과관계가 있다고 주장하기 위해서는 최소한 3가지 조건을 만족해야 한다.
ex. 교육 수준과 소득 수준은 함께 변하는 속성이 있다.
함께 변하는 정도는 상관성(corelation), 또는 관련성(association)이라는 점에서 측정된다.
만약 X,Y ( 독립변수, 종속변수 ) 가 모두 연속형 변수( 간격변수 or 비율변수 )이고 정규성 가정을 만족하는 경우 피어슨 상관계수를 구하면 된다.
그러나 피어슨 상관계수는 두 변수 사이가 선형 관계임을 가정한다.
따라서 피어슨 상관계수 값이 낮게 나온다 = 선형 관계임을 가정했을때 상관성이 낮다. 이다.
실제로 두 변수간의 상관성이 낮다는 것을 의미하진 않는다.
안 거짓관계 = X, Y 두 변수 사이의 관계가 제 3의 변수에 의해 동시에 영향을 받아서는 안된다는 것.
ex. 아이스크림의 판매량 증가 -> 상어가 사람을 공격하는 빈도
라는 X,Y 관계에 있어서 여름철 기온 상승이라는 제 3의 변수가 있기 때문에 틀린 인과 관계이다.
여기서 여름철 기온이라는 변수는 거짓 변수이다.
안 거짓관계는 관찰된 두 변수 사이의 관계가 어떤 관련된 다른 현상 때문에 발생한 것이 아니어야 한다는 것이다.
원인이 되는 현상 X가 결과가 되는 현상 Y보다 먼저 나타나야 한다는 것을 의미한다.
실제 사회현상에서 인과관계 분석이 어려운 이유가 여기 있다.
그리고 사회 현상에서 이 조건을 충족시키기가 어렵다.
분명히 거짓 관계는 아니지만, 어떤 것이 원인이고 어떤 것이 결과인지 알 수 없는 경우가 너무 많다.
시간의 흐름 가운데 어느 한 점을 시점이라고 한다.
원인 변수의 작동 시점이 달라지면 결과가 나타나는 시점 역시 달라질 것이다.
상황과의 관계에서 적절한 시점을 선택했느냐에 대한 개념으로 적시성 개념이 있다.
시점과 시점과의 사이를 나타내는 개념으로 기간이 있다.
시차 ( time lag ) 는 독립변수 X가 종속변수 Y의 변화를 나타내는 데 관련된 시간의 차이를 나타낸다.
시간적 간격을 표현하는 개념 가운데, 기간 또는 지속성이라는 개념도 존재하지만 이런 것들은 단순히 시간의 길이를 의미하는 반면에
시차는 일정 기간 동안에 나타나는 변화의 차이를 표현할 때 쓰인다.
시차는 시간의 흐름에 따라 나타난 변화의 양(효과)을 측정하기 위한 분석 도구로 쓰일 수 있다.
인과관계에서 원인이 되는 변수가 작용한 후 바로 결과가 나타나는 경우도 있을 수 있으나,
대부분 시간이 흐른 다음에 그 결과가 나타난다.
이때의 결과 역시 점진적으로 나타날수도, 크게 결과가 나타났다가 점점 효과가 줄어줄수도 있다.
어찌됐든 일정한 시간적 흐름이 있고나서 정책 효과가 나타나는 경우, 그 기간은 정책 학습 기간 또는 정책 적용 기간이라 할 수 있을 것이다.
어떤 문제가 공론화되면, 그 문제는 어느정도 시간을 가지고 나서 반응을 한다.
시간을 본질적 실체로 보는 견해에서는 시간을 독립 변수로 사용한다.
반면에 시간을 독립적이 아니라고 보는 견해에서는 시간을 실체로 보지 않는다.
( 시간은 모든 현상에 작용하는 것, 또는 모든 현상이 공유하는 것으로 본다. 두 현상간의 변화에서 인과관계 규명하려 할 때, (시차가 내포되어있는) 현상과 현상과의 관계를 추적하는 것이지 시간을 변수로 원인 변수로 첨가하는 것은 아니다. 라는 것이다. )
회귀 분석 방법을 시계열 자료에 적용하는 경우에 어떤 변수의 영향을 파악하기 위해서 원인 변수로 시간 변수를 모형에 넣는 경우가 있으나, 이것도 엄밀하게는 시간의 흐름에 따른 변수의 영향을 "대리"하여 시간 변수를 사용하는 것일 뿐이라는 것이다.
주식의 변동 과정을 모형화 했을 때, "모든 구체적 사안을 통합적으로 파동으로 해석한다는 점에서 대리변수에 의존하는 성향이 있다고 본다." 는 말이 있다.
여러 원인 변수의 영향이 녹아있는 것 자체는
어떤 사상이 시간의 흐름에 따라 변화한 결과라고 생각하여야 한다.
이 경우 모형화하면 단변량 아리마 모형이 된다.
만약 원인변수들을 찾아 모형을 만들어내면 다변량 아리마모형(이하 Multivariate ARIAM, MARIMA, 마리마)이 되는데, 적절한 모형을 만든다면 원인변수들의 시차에 따른 영향력을 분석해낼 수 있다.
이런 점에서 시간 자체로는 대리변수로 기능하는 것은 아니란걸 알 수 있다.
다만 우리가 모르는 변수들의 영향력은 마리마 모형에서도 교란항에 잡히게 되어 있는데, 이 교란항은 대리변수의 역할을 한다고 볼 수 있다.
원인 변수들이 마리마 모형에서 빠지는 경우, 그것들이 교란항에서 자동회귀 요소나 MA ( 이동평균) 요소로 모형화 되는데 이때 이 교란항은 빠진 원인 변수들의 대리변수 역할을 한다고 볼 수 있다.
회귀 분석은 변수와 변수와의 관계에 관한 것이다.
이전에 배운 변수와 변수와의 관계를 표현하는 방법중에 상관관계가 있었다.
상관관계가 변수끼리 서로 어느정도 과련되어 있는가를 이야기해 준다면,
회귀 분석은 한 변수의 변화가 다른 변수의 변화에 어떠한 관계가 있는가를 말해준다.
회귀 분석은 선형인 회귀 방정식을 구하여 이들 사이의 의존 관계를 분석하는 방법이다.
이 분석을 통해 종속 변수 Y가 독립변수 X에 얼마나 의존하는지를 알 수 있고, 독립변수 X가 주어졌을 때 Y를 예측할 수 있다.
의존관계를 다루긴 하는데 인과관계를 의미하진 않는다. 인과관계는 통계학 바깥에서 이론이나 다른 어떤더ㅔ서 추론되는 것이다.
1 : 함수적 관계 : 변수들 사이의 관계를 하나의 수식으로 나타낼 수 있다.
2 : 통계적 관계 : X 가 하나일 때 대응하는 종속변수의 값이 여러 개인 경우. 반복적으로 표본을 추출 했을 때, 독립변수는 고정되어 있고 종속 변수는 확률적 분포를 이루는 제멋대로(스토캐스틱)의 상태를 보여줄 떄 나타내는 관계이다.
널리 알려진 내용들이라 생략한다.
널리 알려진 내용들이라 생략한다.
상관관계가 높다 != 인과 관계이다.
이하 생략한다.
상관분석은 두 변수 사이의 선형 관계의 강도를 측정한다.
따라서 상관관계에서 추정되는 계수 값은 강도일 뿐이다.
상관계수가 이들 사이의 인과관계를 말해주지 않는다. 곧, 어느 것이 독립변수이고 어느 것이 종속 변수인가에 대해서 관심을 두지 않는다.
회귀 분석에서는 어떤 변수의 값을 고정하고 다른 변수의 평균값을 예측하는데 관심을 가진다.
이 두 기법의 근본적 차이는 무엇일까?
회귀분석에서는 종속 변수와 독립 변수가 비대칭적으로 다루어진다.
Y 값은 확률적 분포를 보이는 것으로 가정한다.
반면 X는 고정 값으로 가정한다.
이에 반해 상관분석에서는 모든 변수를 대칭적으로 취급하여 독립/종속 구별하지 않는다. 나아가서 두 변수는 무작위한 것 ( 또는 무작위로 추출되는 것) 으로 가정한다.
다시 말해서 회귀 분석은 원인과 결과를 가정하고 원인 변수가 결과가 되는 변수를 어느 정도 설명하는가에 관심을 가지기 떄문에 X Y 를 다르게 취급하지만
상관 분석은 원인 결과와 상관없이 서로의 관련성만 초점을 두기 떄문에 X Y 모두 무작위한 것으로 취급한다.
회귀 분석을 할떄에는 상관 분석을 통해 일단 변수들의 관계를 조사한다.
만약 X들간의 상관관계가 Y 간의 상관관계보다 높다면 다중공선성 문제가 발생한다.
생략
데이터에 측정 오차가 크다면 회귀 계수값은 믿을 수 없다.
X와 Y의 관계를 선형으로 가정한다.
정규성 가정이 필요한 이유
1 : 회귀 모형에 포함될 수 없는 수많은 독립변수들의 합이 종속변수에 미치는 영향을 나타낸다
따라서 이러한 변수들의 영향은 가능한 적어야 하고, 설령 있더라도 무작위적이어야 한다
2 : 중심 극한 정리에서 나온 또 다른 설명은, 변수의 수가 ㅁ충분히 많지 않거나 혹은 이들 변수가 완전히 독립적이지 않더라도 이들 변수 전체는 아마도 정규 분포를 이룰 것이다.
이분산성이 존재하는지 확인을 위해선 독립변수 X의 값이 변함에 따라 종속변수 Y의 값이 어떻게 변하는 경향이 있는지를 언급하는게 좋다. 회귀 분석에서는 회귀 계수 값에 문제가 생기므로 변수를 변환시키는 방법 등을 사용해야 한다.
오차항끼리는 자동상관관계가 없다는 가정이다. ( no serial correlation )
다시 말해 어느 한 기간에 오차항이 가지는 값 e_i 는 다른 기간의 값 e_j 와 관련되어 있지 않다는 것이다.
이 가정이 어긋나는 경우는, 관찰값끼리 서로 관련되어 있다는 것을 뜻한다.
위 내용은 다음에 하기로 한다.
대략
변수 선정시, X 와 Y의 관계가 선형 관계가 아닌 경우,
아웃라이어가 있는 경우, 이분산성을 갖는 경우,
다중공선성이 있는 경우,
자동상관성이 있는 경우가 있다.
자동상관 이후부터 본격적인 아리마 내용이 시작될 것 같다.