Simple linear regression model in matrix form 자, 우리의 목표는 LSE를 통해 계수를 추정하는 것이다. matrix form으로 나타내면 다음과 같이 확인할 수 있다. 주목할 점으로는 $\mathit{\epsilon}$이 independent한 normal random variables라는 것이다. 그래서 $E(\mathit{\epsilon})=0$이고 $\mathit{\sigma}^2(\mathit{\epsilon}) = \mathit{\sigma}^2I$라는 것이다. 그럼 LSE 정규방정식에 대해서 생각해보자. 이해가 안된다면 이전 포스팅을 참고하면 된다.  Plot은 original plot, (b) plot은 $logY$로의 transformation이 일어난 plot이다. original에 비교하면 그래프가 직선의 형태로 변화한 것을 확인할 수 있다. (심지어 육안으로 보기 가능)
How to do Breusch-Pegan Test BP test는 BF test에서 잡아낼 수 없는 것을 잡아준다. 예를 들자면, BF에서는 2개의 그룹으로 나누어 등분산성을 검정했다. 하지만 2개의 그룹의 variability는 같으나 각각의 그룹에서 또 그룹을 나눠서 생각해보면 등분산성이 깨질 수 있다. 그래서 그 대안으로 BP test를 할 수 있다. BP test로는 다음과 같이 수행하면 된다. $$loge{\mathit{\sigma}i^2} = \mathit{\gamma}0+\mathit{\gamma}1X_i $$ 위의 식에서 만약 $\mathit{\gamma}_1$이 0이 아니라면 등분산성이 깨지는 것이다. test를 위해 SSE와 SSR값을 구하고, 가설을 다음과 같이 세운다. $H0 : \mathit{\gamma}1 = 0$ $H1 : \mathit{\gamma}1 \not =0$ 검정통계량은 다음과 같다. $X_{BP}^2 = {{SSR^*
들어가기전에... 우리는 앞에서 linear model을 가정했다. 그렇다면 그 다음에는 이 모델이 적절한지, 우리의 가정이 잘 맞는지 확인하는 과정이 필요하다. 확인하는 방법으로는 주로 Graphical인 방법과 Statistical test 방법이 있다. 이 부분은 특히 Residual이 main인 부분이다! 왜냐면 residual은 random error에 대한 정보를 가지고 있기 때문이다. Plots 각 Plot들을 통해 쉽게 얻을 수 있는 정보가 있다. Dot plot은 최대, 최솟값, outlier, 케이스의 수를 파악할 수 있다. Sequence plot은 시간의 흐름을 나타낸다. 줄기와 잎 plot은 정규성과 빈번도, 범위, quantile을 알 수 있다
$\hat{Y}_h$ estimation (1) 번 포스트에서는 회귀계수의 추정값에 대해서 다루었다. 그렇다면 $\hat{Y}_h$의 estimation에 대해 알아보자. 절대 TeX문법 쓰기 귀찮아서 이미지로 자꾸 첨부하는 것 아니다. 기댓값에 대해서는 기존의 선형 회귀 식을 생각해서, 그 자체에 기댓값을 씌운 것을 생각해보면 되기 때문에 어렵지 않게 이해할 수 있다. 분산의 경우 증명을 따로 다루지 않았다. 또.. 용어 정리 사실 내가 회귀분석을 공부하면서 가장 헷갈렸던 것이 줄임말들이었는데... 심지어 방 책상앞에 아직도 줄임말을 정리해둔 포스트잇이 붙어있다. 다시 정리해보자면, > SSTO : sum of square total SSE : sum of square erro
Statistical inferece란.. 데이터 분석 과정을 통해 분포의 특성을 추론하는 과정이다. 가설을 testing하고, 모수를 추정한다. Normal linear regression model $$ Yi = \mathit{\beta}0 + \mathit{\beta}1Xi + \mathit{\epsilon}_i $$ 에서는 beta들이 추정된 값이었고, error term은 각각 독립적이며 정규분포를 따랐다. 먼저 $\mathit{\beta}_1$에 대해 생각해보자.. Inference concerning $\mathit{\beta}_1$ $\mathit{\beta}_1$은 우리가 추정한 regression line의 Slope (기울기) 와 같다. 이 기울기 term은 우리에게 X와 Y가 어떤 선형 관계를 갖는 지 설명해주는 term이라고 생각하면 편하다. 그렇다면 우리의 주된 관심은 ? ! ! Testing $H_0 : \math
Likelihood likelihood는 한국말로는 우도라고 한다. (제주도 우도 땅콩 막걸리 맛있음) 조금 더 풀어서 설명하자면, 우리가 직접 관측한 데이터가 우리에게 주는 값이라고 생각하면 된다. >예시 10번 동전을 던졌고, 8번의 head가 나왔다면 이러한 정보에 근거해서 우리는 head가 나올 확률을 0.8이라고 말하는 것이 likelihood 이다. Maximum likelihood estimation (2)번 글에서도 작성해두었듯이, 관측값 $Yi$의 regression model에서 error는 정규분포를 따른다고 했고 그에 따라 $E(Yi) = \mathit{\beta}0+\mathit{\beta}1Xi$ 이고 $Var(Yi) = \mathit{\sigma}^2$ 로 표현할 수 있었다. 그렇다면 Pdf(probability density function)을 다음과 같이 쓸 수 있다.  = \sum{i}(Yi-\mathit{\beta}0 -\mathit{\beta}1X_i)^2 $$ Least square는 위와 같이 나타낼 수 있다. 즉 $Y_i$에서 $E(Y)$를 제해준 값으로, random error term을 의미하기도 한다. 그리고 그냥 값이 아닌 제곱을 하는 이유는 음수의 오차와 양수의 오차를 더했을 때 값이 상쇄되는 효과가 일어난다. 또한 절댓값을 사용하지 않는 이유는 최솟값을 구할 때 미분을 사용하지 못하기 때문이다
시작하기 전에 계절학기로 회귀분석을 수강하게 되었다! 사실 전에 대충 공부해봤어서 뭐하는건지는 정말 정말 조금 알고 있었는데, 학교에서 수업으로 들으니까 약간 물음표들이 정리되는 기분이었다. 솔직히 어려운 과목인거 진짜 맞고,많은 양을 한번에 머릿속에 넣으려니 힘들기도 했지만 나름대로 ENjoy!! 한 것 같다. 정말 통계에서 중요한 과목이니 지식들이 휘발되지 않으려면 정리를 잘 해야할 것 같다고 생각해서 아마 큰일이 없다면 하루에 하나씩... 이렇게 요약 정리를 하게 될 것 같다. 파이팅. Regress의 concept (사진출처 위키) Regress 이라는 단어는 영국의 Francis Galton이라는 사람이 가장 먼저 사용했다고 한다. Galton은 사실 사회학자이자 심리학자, 인류학