.png)
2x2 분할표를 사용해 비율의 비교에 대해 살펴본다.
대표적인 비율 비교 척도 상대위험도, 오즈비를 예시를 통해서 살펴보자. 일반적으로 코호트 연구일 경우 상대위험도를, 환자대조군 연구일 경우 오즈비를 활용해 계산한다.
분석 목적 : 시험의 결과와 학력의 연관성
변수
: 학력(고졸X=0, 대졸X=1), : 시험의 결과 (합격Y=1, 불합격Y=0)
분할표
합격(Y=1) 불합격(Y=0) Total 대졸(X=1) 30 20 50 고졸(X=0) 15 25 40 Total 45 45 90
- 범주별 비율, 상대적 위험도 추정량
- 대졸 중 시험에 합격한 비율 :
- 고졸 중 시험에 합격한 비율 :
- 두 그룹의 상대위험도 추정량 : = 1.6
- 결과 해석
- 대졸의 경우가 고졸의 경우보다 시험에 합격한 비율이 60% 높다. 추정의 관점에서 해석하면 대졸자의 합격 확률이 고졸의 1.6배라고 볼 수 있다.
- 분석 목적 : 알콜중독과 심장질환의 연관성
- 실험 설계
심장질환을 갖고 있는 사람과 그렇지 않은 사람을 각각 50명, 100명씩 선정해알콜중독 여부와 비교하려고 한다.- 이러한 실험의 경우, 앞서 살펴본 상대위험도를 사용할 수 없다. 관측치가 독립적으로 랜덤하게 선택된 것이 아니라,
심장질환 여부에 의해 정해진 비율 혹은 숫자에 따라 선정된 집단 이기 때문이다. (단적으로 전체 표본 중 심장질환자의 비율이 인 것은 미리 그렇게 정해 놓았기 때문이지, 실제로 3명 중 1명이 심장질환을 가지고 있다는 의미가 아니다.) 추정된 확률과 추정된 확률의 비(상대위험도)가 의미가 없게 된다.- 반면 오즈비는 관측치가 정해진 비율, 숫자에 따라 선정되는 제약조건에 유연하다. 오즈비를 해당 실험의 비교 지표로 사용해보자.
분할표
심장질환 yes (Y=1) 심장질환 no (Y=0) Total 알콜중독 yes (X=1) 4 2 6 알콜중독 no (X=0) 46 98 144 Total 50 100 150
- 오즈와 오즈비
- 알콜중독자 중 심장질환의 추정된 오즈 : =
- 비알콜중독자 중 심장질환의 추정된 오즈 :
- 오즈비 : =
- 결과 해석
심장질환이 있을 오즈는 알콜중독자 집단이 비중독자 집단의 약 4.26배인 것을 알 수 있다. 반대로 심장질환이 없을 오즈를 이용하여 오즈비를 구하면 4.26의 역수인 0.2346이 나올 것이고 같은 수준의 연관성을 의미한다.
분할표
앞서 살펴본 비율 지표들과 동일하게 분할표 기반으로 분석하며, 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용한다.
각 셀에서의 관측빈도와 기대빈도의 총량을 이용하면 두 변수의 독립성을 판단할 수 있을 것입니다. 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합치고 이는 카이제곱분포를 따르게 됩니다.
기대빈도
- 기대빈도 산출 공식
(추정)
- 각 행과 열의 빈도와 전체빈도의 비율로 추정
- : 각 셀에 속할 확률
- : i번 째행에 속할 확률 ( 으로 추정)
- 는 j째 열에 속할 확률 ( 으로 추정)
카이제곱 통계량
관측빈도와 기대빈도 차이의 변동을 정량화한 통계량
기대빈도는 두 변수가 독립이라는 가정하에 구해진 빈도이므로 실제 관측빈도와 기대빈도의 차이가 크다는 것은 두 변수의 연관성 역시 크다는 뜻이다. 각 셀에서의 관측빈도와 기대빈도의 총량을 이용해 두 변수의 독립성을 판단할 수 있고, 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합하고 이는 카이제곱분포를 따르게 된다. (기대빈도 값 기준 5)
카이제곱 통계량 Q가 크다면, 관측빈도와 기대빈도의 차이는 충분히 큰 것이고 두 변수가 독립적이지 않다, 귀무가설을 기각한다는 결론을 내린다.
카이제곱 통계량 공식
- 관측빈도
- 기대빈도
각 범주(셀)의 기대빈도가 높다면(일반적인 기준 : 5), 정규분포근사를 통해 카이제곱 통계량을 계산한다.
자유도
전체 표본 수가 n으로 고정되어 있을 때, 기대빈도를 추정하면 행의 합=n , 열의 합=n이라는 제약식을 갖게 되고 그 조합으로 구해지는 Q는 (열 변수의 범주 - 1), (행 범주의 범주 - 1) 라는 자유도를 갖게 된다.
분석 목적 : 지역과 지지정당의 독립성
:
지역과 지지정당 두 변수는 독립이다.
- 분할표
지역1 지역2 지역3 지역4 Total A당 지지 80 200 120 120 520 B당 지지 305 105 70 150 630 C당 지지 35 85 220 110 450 Total 420 390 410 380 1600
관측빈도를 기반으로 (기대빈도) 산출
(각 셀의 기대빈도는 충분히 커서 >5 근사 가정을 만족하므로 카이제곱 검정을 진행한다)
지역1 지역2 지역3 지역4 Total A당 지지 80 (136.5) 200 (126.75) 120 (133.25) 120 (123.5) 520 B당 지지 305 (165.38) 105 (153.56) 70 (161.44) 150 (149.63) 630 C당 지지 35 (118.13) 85 (109.69) 220 (115.31) 110 (106.88) 450 합 420 390 410 380 1600
- 해석
- 독립
지역3이고 B당을 지지할 확률 = B당 지지할 확률 x 지역3에 속할 확률 = * 이 성립한다면,두 변수가 통계적으로 독립, 변수간 연관이 없다라는 뜻이다.- 카이제곱 검정
카이제곱 검정통계량Q = 411.35는 자유도 (3-1)(4-1) = 6 인 카이제곱 분포를 따른다. 이 경우 p-value는 매우 작아 두 변수가 독립이라는 귀무가설은 기각한다.
로지스틱 회귀분석(logistic regression analysis)은 일반화 선형모형이라 불리는 큰 범주의 통계모형 모델링 방법에 속하는 방법이다.
일반화 선형모형 GLM(Generalized Linear Model)
로지스틱 회귀분석에서의 선형화
관심 범주에 속할 확률 을 선형화한다. 확률은 일반적으로 예측자들에 따라 비선형하게 분포되어 있고, 형태는 S자 형태가 되는 경우가 많으며, 처음부터 확률에 선형라인을 적합시키는 방법도 있으나 제약이 존재한다.