계절학기로 회귀분석을 수강하게 되었다! 사실 전에 대충 공부해봤어서 뭐하는건지는 정말 정말 조금 알고 있었는데, 학교에서 수업으로 들으니까 약간 물음표들이 정리되는 기분이었다. 솔직히 어려운 과목인거 진짜 맞고,많은 양을 한번에 머릿속에 넣으려니 힘들기도 했지만 나름대로 ENjoy!! 한 것 같다. 정말 통계에서 중요한 과목이니 지식들이 휘발되지 않으려면 정리를 잘 해야할 것 같다고 생각해서 아마 큰일이 없다면 하루에 하나씩... 이렇게 요약 정리를 하게 될 것 같다. 파이팅.
(사진출처 위키)
Regress 이라는 단어는 영국의 Francis Galton이라는 사람이 가장 먼저 사용했다고 한다. Galton은 사실 사회학자이자 심리학자, 인류학자였는데 아버지의 키를 바탕으로 아들의 키를 예측하고자 했다고 한다. 그리고 그는 '아버지의 키가 클수록 아들의 키도 클것이다.' 라고 추측했으나 실제로는 그룹의 평균으로 회귀한다는 결과를 얻게 되었다. 여기서 평균으로의 regress 라는 말이 처음 사용되었다고 한다.
현재에 이르러서는 Regression이란 데이터를 바탕으로 predictor와 response간의 함수적 관계를 모델링하는 통계적 방법을 의미한다.
우리는 좋은 f를 찾아야한다. 그럼 이 좋은 f는 어떻게 찾을 것인지 생각해보아야한다..
하지만 함수는 정말 수도없이 많이 존재할 것이다. 그러므로 현실적인 무리가 있다. 따라서 우리는 error term을 만들어준다.
여기서 는 random error이다.
또한 위 그림처럼 random error는 정규분포를 따른 형태로 설정해준다.
simple linear regression model은 다음과 같이 정한다.
선형이므로 당연히 직선 형태로 표현을 하며, 는 여기서 observation을 의미한다.
: response variable of th observation
and : unknown parameters (추정해야하는 값이다)
: predictor variable, known constants
: random error term, mean and variance . 그리고 모든 error term들의 covariance는 0이다.
그렇다면
가 된다. (error term의 expectation은 0이므로)
임을 simple linear regression 식을 통해서 얻어낼 수 있다.
suppose that in the th week, bids are prepared and the actual number of hours required is In that case, error term is 4.
위에 따른다면 식을 다음과 같이 나타낼 수 있다.
그렇다면 실제의 표현은 다음과 같다.
그래프를 이용해 표현하면 다음과 같은 regression을 얻을 수 있다.
여기서 회귀 계수들의 의미를 잘 확인하는 편이 좋다.
1. 우선 은 regression line의 slope이다. 따라서 평균이 변하는 량, 즉 가 한 단위 변할 때 증가하는 양이라고 할 수 있다.
2. 는 절편, intercept라고도 표현한다. 지금 예제에서는 bids의 초기값 정도로 표현할 수 있다.
to be continued,,