[ADsP] 10~11강 기초통계(통계의 이해 추정과 가설검정 ~ 회귀분석)
3. 추정과 가설검정
1) 추정
(1) 모수의 추정
- 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값
- 대부분 표본조사를 실시하여 모수를 추정
(2) 점추정
- 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것
(3) 구간추정
- 모수가 특정한 구간 안에 존재할 것이라 예상하는 것
- 신뢰도가 필요하며, 신뢰도는 90, 95 99를 주로 사용
2) 가설검정
(1) 가설검정의 개념
- 통계적 가설검정 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서
얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
(2) 귀무가설
- 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설
(3) 대립가설
- 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설
(4) 제1종 오류와 제2종 오류
- 제1종 오류 : 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류
- 제2종 오류 : 귀무가실이 사실이 아님에도 귀무가실이 옳다고 결정하는 오류
(5) 검정통계량
- 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에
의하여 표본들로부터 얻을 수 있는 값
- 귀무가설의 옳고 그름을 판단할 수 있는 값
(6) 기각역
- 귀무가설을 기각하게 될 검정통계량의 영역
- 검정통계량이 기각역 내에 있으면 귀무가설을 기각
(7) 유의수준
- 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계
- 0.01 or 0.05을 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절 가능
(8) 유의확률
- 유의확률 또는 p-value, 귀무가설을 지지하는 정도를 나타낸 확률값
3) 비모수 검정
(1) 모수검정 vs. 비모수검정
- 모수검정 : 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법
- 비모수검정 : 정규분포임을 가정할 수 없는 경우에 사용
(2) 모수검정과 비모수 검정의 차이(교재의 표 참고!) ★★
02 기초통계
1. t-검정
1) 일 표본 t-검정(one sample t-test)
(1) 일 표본 t-검정의 개념
- 일(단일) 표본 t-검정은 가설검정의 일종, 하나의 모집단의 평균(n)값을 특정값과
비교하는 경우 사용하는 통계적 분석 방법
(2) 일 표본 단측 t-검정
- 모수값이 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법
(3) 일 표본 양측 t-검정
- 모수값이 방향성이 없는 경우 수행되는 검정 방법
2) 이(독립) 표본 t-검정(independent sample t-test)
(1) 이 표본 t-검정의 개념
- 서로 독립적인 두 개의 집단에 대하여 모수(모평균)의 값이 같은 값을 갖는지
통계적으로 검정하는 방법
(2) 이 표본 단측 t-검정
- 두 집단에 대하여 모수 비교를 할 때 두 집단 사이에 대소가 있는 경우 수행되는 방법
(3) 이 표본 양측 t-검정
- 두 집단에 대하여 모수 비교를 할 때 두 집단 사이에 대소가 없는 경우 수행되는 방법
3) 대응 표본 t-검정(paired sample t-test)
(1) 대응 표본 t-검정의 개념
- 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용
- 주로 실험 전후의 효과를 비교하기 위해 사용
(2) 대응 표번 t-검정
- 예) 새로운 운동법이 체중감량의 효과가 있는지 검증하기 위해 새로운 운동법을
실시한 집단과 실시하지 않은 집단의 체중을 비교 할 때 사용
2. 분산분석(ANOVA) ★★
1) 분산분석
(1) 분산분석 개요
- 세 개 이상의 모집단이 있을 경우에 여러 집단 사이의 평균을 비교하는 검정 방법
- 분산분석의 귀무가설은 항상 '모든 집단 간 평균은 같다'이다
- 정규성, 등분산성, 독립성이 필요
- 정규성 : 각 집단의 표본들은 정규분포를 따라야 한다.
- 등분산성 : 각 집단은 동일한 분산을 가져야 한다.
- 독립성 : 각 집단은 서로에게 영향을 주지 않는다.
- 분산분석의 단점
* 귀무가설을 기각할 경우 어느 집단 간 평균이 같은지 혹은 어느 집단 간의 평균이 얼마나 다른지 알 수 없다.
* 그래서 귀무가설을 기각했을 경우 어느 집단 간에 차이를 보이는지 알기 위한 사후검정을 실시한다.
(2) 일원분산분석(one-way Anova) ★★
- 셋 이상의 집단 간 평균을 비교하는 상황에서 하나의 집단에 속하는 독립변수와 종속변수 모두 한개 일때 사용
(3) 이원분산분석(two-way Anova) ★★
- 독립변수의 수가 두 개 이상일 때 사용
- 만약 집단 간의 평균 차이를 검증할 때 종속변수가 2개 이상이라면 다변량분석분산을 수행하며, 이를 다원분산분석이라고 한다.
3. 교차분석
1) 교차분석
(1) 교차분석의 개념
- 범주형 자료(명목, 서열) 간의 관계를 알아보고자 할 때 사용되는 분석방법
- 카이제곱 검정통계량을 이용
- 적합도 검정, 독립성 검정, 동질성 검정에 사용
(2) 교차분석표
- 두 범주형 변수를 교차하여 데이터의 빈도를 표 형태로 나타낸 것
2) 적합도 검정
(1) 적합도 검정의 개념
- 실험결과 얻어진 관측값이 예상값과 일치하는지 여부를 검정하는 방법
- 실험 데이터 - 관측도수, 예측값 - 기대도수
3) 독립성 검정
- 모집단이 두 개의 변수에 의해 범주화됐을 때 그 두 변수들 사이의 관계가 독립적인지 아닌지 검정하는 것을 의미
- 두 범주형 변수 간에 관계가 있는지 없는지만 나타낼 뿐이며, 강도를 말해주지는 않음
4) 동질성 검정
- 관측값들이 정해짐 범주 내에서 서로 비슷하게 나타나고 있는지를 검정하는 것
- 두 집단의 분포가 동일한 모집단에 추출된 것인지를 검정
4. 상관분석
1) 상관분석의 개념
(1) 상관분석의 개념
- 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법, 상관계수를 활용
- 상관계수는 -1과 +1 사이의 값을 갖는데, +1이면 강한 양의 상관관계,
-1이면 강한 음의 상관관계, 0에 가까울수록 상관관계가 존재하지 않는다.
(2) 상관분석 귀무가설
- 두 변수는 아무 상관관계가 없다
2) 상관분석의 종류
(1) 피어슨 상관분석(선형적 상관관계) ★★★
- 두 변수가 모두 정규분포를 따른다는 가정이 필요, 등간척도일 때 사용
(2) 스피어만 상관분석(비선형적 상관관계) ★★★
- 측정된 두 변수들이 서열척도일 때 사용하는 상관계수
03 회귀분석
1. 회귀분석 개요
1) 회귀분석의 개념
(1) 회귀분석 ★★
- 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추중하는 통계기법
- 독립변수 = 원인변수(설명) / 종속변수 = 결과변수(반응)
- 독립변수가 하나이면 단순선형회귀분석, 2개 이상이면 다중선형회귀분석
- 변수들이 일정한 경향성을 띤다는 의미는 그 변수들이 일정한 인과관계를 갖고
있다고 추측
- 산점도를 봤을 때 일정한 추세선이 나타난다면 경향성을 가지고 있거나 혹은 변수들
간에 인과관계가 존재한다고 추측 가능
(2) 회귀분석의 종류
- 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계
- 다중회귀 : k개의 독립변수와 반응변수가 선형 관계
- 다항회귀 : k개의 독립변수와 반응변수가 2차함수 이상의 관계
- 비선형회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우(지수, 로그, 삼각함수 등)
2) 회귀분석의 가정 ★★★
(1) 선형성
- 독립변수와 종속변수가 선형적
(2) 독립성
- 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립
- 다중회귀분석에서는 독립변수들 간에 상관성이 없이 독립
- 만약 독립변수들 간에 상관성이 존재할 경우, '다중공선성'이라 하며, 이를 제거하고 회귀분석 진행
(3) 등분산성
- 분산이 같다는 의미이며 다른 말로 잔차들이 고르게 분포하고 있다는 의미
(4) 정규성
- 잔차항이 정규분포 형태를 띠는 것을 정규성을 만족한다고 한다.
- Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태를 띠면 정규성을 만족한다고 판단
참고 : 오차와 잔차, 잔차도
- 오차 : 모집단의 데이터를 활용하여 회귀식을 구한 경우 예측 값과 실제 값의 차이
- 잔차 : 표본집단에 의해 추정된 회귀식을 예측 값과 실제 값의 차이
- 잔차도 : 예측 값과 실제 값의 차이를 나타낸 산점도