자료 유형에 따른 통계 분석(2) - 종속변수가 범주형일때

findingflow·2021년 9월 4일
0

Statistics

목록 보기
2/3
post-thumbnail

범주형 자료 분석

  • 변수가 이산형 변수일 때 주로 사용하는 분석이다.
    • 두 제품간의 선호도가 성별(남,여)과 연관이 있는 지 여부를 파악하기 위해 각 집단간 비율차이 확인한다.
  • 분할표(contingency table) 를 기반으로 분석한다.
    • 범주별 빈도(이산형 변수이므로)를 세서 표를 작성하는데, 두 변수의 범주가 교차되어 있는 경우 이를 분할표라고 한다.
    • 분할표를 기반으로 범주형 변수에 대해 카이제곱 검정(독립성,동질성)을 하거나, 로지스틱 회귀모형(일반화 선형모형)을 해석할 때 사용한다.

1. 비율의 비교

2x2 분할표를 사용해 비율의 비교에 대해 살펴본다.

  • 두 범주형 변수가 이항변수일 때 각 범주의 빈도를 세서 2x2 분할표를 작성할 수 있다.
  • 빈도의 크기, 한 변수의 각 범주 별 다른 변수의 비율을 비교해볼 수 있다.

대표적인 비율 비교 척도 상대위험도, 오즈비를 예시를 통해서 살펴보자. 일반적으로 코호트 연구일 경우 상대위험도를, 환자대조군 연구일 경우 오즈비를 활용해 계산한다.

1-1. 상대위험도(relative risk / RR)

  • 한 변수의 범주 별 다른 변수의 비율을 상대적으로 비교할 때 사용한다.
    • 첫 범주에 속할 확률 추정량과 두 번째 범주애 속할 확률 추정량의 비
    • 확률은 각 범주의 비율로 추정한다.
    • 하기 예제에서는, 학력XX의 범주별 시험결과YY의 비율 비교한다.
  • 해석
    • 상대위험도가 1에 가까울수록 두 변수사이에 연관성이 없다.
    • 0에 가까워지거나 커질수록 음 혹은 양의 관계를 갖는다.
  • 장/단점
    • 직관적인 비교 지표로 쉽게 해석할 수 있다는 장점이 있다.
    • 한 변수의 수를 고정시킨 조사에서는 사용이 불가능하다는 단점이 있다.

상대위험도 예제

  • 분석 목적 : 시험의 결과YY와 학력XX의 연관성

  • 변수
    XX : 학력(고졸X=0, 대졸X=1), YY : 시험의 결과 (합격Y=1, 불합격Y=0)

  • 분할표

    합격(Y=1)불합격(Y=0)Total
    대졸(X=1)302050
    고졸(X=0)152540
    Total454590
  • 범주별 비율, 상대적 위험도 추정량
    • 대졸 중 시험에 합격한 비율 : 3050\frac{30}{50}
    • 고졸 중 시험에 합격한 비율 : 1540\frac{15}{40}
    • 두 그룹의 상대위험도 추정량 r.r^\widehat {r.r} : 3050/1540\frac {30} { 50} / \frac {15} {40} = 1.6
  • 결과 해석
    • 대졸의 경우가 고졸의 경우보다 시험에 합격한 비율이 60% 높다. 추정의 관점에서 해석하면 대졸자의 합격 확률이 고졸의 1.6배라고 볼 수 있다.

1-2. 오즈비(odds ratio)

  • 오즈비oddsodds는 오즈(성공확률/실패확률)의 각 범주 별 비율로, 승산비라고도 부른다.
  • 확률을 선형화하는 여러 통계 모형, 분할표 등에서 자주 사용되는 지표이다.
  • 오즈와 오즈비
    • π\pi : 성공확률(관심 범주에 속할 확률)
    • odds=π1πodds = \frac {\pi} {1-\pi}
    • odds ratio=(π11π1)/(π21π2)odds\ ratio = \left( \frac { \pi_1} {1-\pi_1} \right) / \left( \frac { \pi_2} {1-\pi_2} \right)
    • 실패에 대한 오즈비는 성공에 대한 오즈비의 역수로 표현되며 동일한 연관도를 나타낸다.
    • 오즈비는 대칭적으로 구해지기 때문에 반응변수와 설명변수의 구별 없이 동일한 값을 제시해준다.
  • 해석
    • 오즈비가 1에 가까울수록 두 변수사이에 연관성이 없다.
    • 0에 가까워지거나 커질수록 음 혹은 양의 관계(밀접한 연관성)를 갖는다.

오즈비 예제

  • 분석 목적 : 알콜중독XX과 심장질환YY의 연관성
  • 실험 설계
    • 심장질환YY을 갖고 있는 사람과 그렇지 않은 사람을 각각 50명, 100명씩 선정해 알콜중독 여부XX와 비교하려고 한다.
    • 이러한 실험의 경우, 앞서 살펴본 상대위험도를 사용할 수 없다. 관측치가 독립적으로 랜덤하게 선택된 것이 아니라, 심장질환 여부YY에 의해 정해진 비율 혹은 숫자에 따라 선정된 집단 이기 때문이다. (단적으로 전체 표본 중 심장질환자의 비율이 13\frac 1 3 인 것은 미리 그렇게 정해 놓았기 때문이지, 실제로 3명 중 1명이 심장질환을 가지고 있다는 의미가 아니다.) 추정된 확률과 추정된 확률의 비(상대위험도)가 의미가 없게 된다.
    • 반면 오즈비는 관측치가 정해진 비율, 숫자에 따라 선정되는 제약조건에 유연하다. 오즈비를 해당 실험의 비교 지표로 사용해보자.
  • 분할표

    심장질환 yes (Y=1)심장질환 no (Y=0)Total
    알콜중독 yes (X=1)426
    알콜중독 no (X=0)4698144
    Total50100150
  • 오즈와 오즈비
    • 알콜중독자 중 심장질환의 추정된 오즈 (odds^x=1)(\widehat {odds}_{x=1}) : 4/62/6\frac {4/6}{2/6} = 42\frac 4 2
    • 비알콜중독자 중 심장질환의 추정된 오즈 (odds^x=0)(\widehat {odds}_{x=0}) : 46/14498/144=4698\frac { 46/144 } {98/144} = \frac {46} {98}
  • 오즈비 (odds ratio^)(\widehat {odds\ ratio}) : odds^x=1odds^x=0\frac {\widehat {odds}{x=1}} {\widehat {odds}{x=0}} = 4/246/98=9823=4.26\frac { 4/2 } { 46/98} = \frac {98} {23} = 4.26
  • 결과 해석
    심장질환이 있을 오즈는 알콜중독자 집단이 비중독자 집단의 약 4.26배인 것을 알 수 있다. 반대로 심장질환이 없을 오즈를 이용하여 오즈비를 구하면 4.26의 역수인 0.2346이 나올 것이고 같은 수준의 연관성을 의미한다.

2. 카이제곱 독립성 검정

  • 여러 범주형 변수가 독립적으로 분포하는지를 테스트함으로써, 범주형 자료의 집단간의 동질성, 상관성을 통계적으로 검증하는 것이다.

Notation

분할표
앞서 살펴본 비율 지표들과 동일하게 분할표 기반으로 분석하며, 일반적으로 2x2가 아닌 여러 범주를 갖고 있는 경우에 사용한다.

각 셀에서의 관측빈도와 기대빈도의 총량을 이용하면 두 변수의 독립성을 판단할 수 있을 것입니다. 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합치고 이는 카이제곱분포를 따르게 됩니다.

기대빈도

  • 두 변수가 통계적으로 독립이라는 귀무가설(H0)(H_0) 하에 기대되는 빈도
  • 귀무가설 H0:πij=πi    πjH_0 : \pi_{ij} = \pi_{i\cdot} \; \cdot\; \pi_{\cdot j} (두 변수가 전혀 연관이 없다면 확률의 곱법칙에 성립할 것이다)
    • 기대빈도 산출 공식
      Eij=nπij=nπiπjE_{ij} = n \cdot \pi_{ij} = n\cdot \pi_{i \cdot} \cdot \pi_{\cdot j}
      (추정) n(nin)(njn)=ninjn\Rightarrow n\cdot \left( \frac {n_{i\cdot}} {n} \right)\cdot \left( \frac {n_{\cdot j}} {n} \right) = \frac {n_{i\cdot}\cdot n_{\cdot j} }{n}
      - 각 행과 열의 빈도와 전체빈도의 비율로 추정
      - πij\pi_{ij} : 각 에 속할 확률
      - πi\pi_{i \cdot} : i번 째에 속할 확률 (nin\frac{n_{i\cdot}}{n} 으로 추정)
      - πj\pi_{\cdot j}는 j째 에 속할 확률 (njn\frac{n_{\cdot j}}{n} 으로 추정)

카이제곱 통계량

  • 관측빈도와 기대빈도 차이의 변동을 정량화한 통계량

  • 기대빈도는 두 변수가 독립이라는 가정하에 구해진 빈도이므로 실제 관측빈도와 기대빈도의 차이가 크다는 것은 두 변수의 연관성 역시 크다는 뜻이다. 각 셀에서의 관측빈도와 기대빈도의 총량을 이용해 두 변수의 독립성을 판단할 수 있고, 단순히 차이를 합치게되면 + / - 가 상쇄되므로 제곱을 해서 합하고 이는 카이제곱분포를 따르게 된다. (기대빈도 값 기준 5)

  • 카이제곱 통계량 Q가 크다면, 관측빈도와 기대빈도의 차이는 충분히 큰 것이고 두 변수가 독립적이지 않다, 귀무가설을 기각한다는 결론을 내린다.

    카이제곱 통계량 공식
    Q=i=1aj=1b(OijEij)2Eij    χ2(  (a1)(b1)Q = \sum_{i=1}^a \sum_{j=1}^b \frac {(O_{ij}-E_{ij})^2} {E_{ij}} \; \sim \; \chi^2 (\;(a-1)(b-1)

    • O:observed frequenciesO : observed \ frequencies 관측빈도
    • E:expected frequenciesE : expected \ frequencies 기대빈도
    • a:number  of  categories  for  column  variablesa : number\; of\; categories\; for \; column \; variables
    • b:number  of  categories  for  row  variablesb: number\; of\; categories\; for\; row \; variables
  • 각 범주(셀)의 기대빈도가 높다면(일반적인 기준 : 5), 정규분포근사를 통해 카이제곱 통계량을 계산한다.

자유도
전체 표본 수가 n으로 고정되어 있을 때, 기대빈도를 추정하면 행의 합=n , 열의 합=n이라는 제약식을 갖게 되고 그 조합으로 구해지는 Q는 (((열 변수의 범주 - 1), (행 범주의 범주 - 1))) 라는 자유도를 갖게 된다.


카이제곱 독립성 검정 예제

  • 분석 목적 : 지역XX과 지지정당YY의 독립성

    H0H_0 : 지역과 지지정당 두 변수는 독립이다.

  • 분할표
지역1지역2지역3지역4Total
A당 지지80200120120520
B당 지지30510570150630
C당 지지3585220110450
Total4203904103801600
  • 관측빈도를 기반으로 (기대빈도) 산출
    (각 셀의 기대빈도는 충분히 커서 >5 근사 가정을 만족하므로 카이제곱 검정을 진행한다)

    지역1지역2지역3지역4Total
    A당 지지80 (136.5)200 (126.75)120 (133.25)120 (123.5)520
    B당 지지305 (165.38)105 (153.56)70 (161.44)150 (149.63)630
    C당 지지35 (118.13)85 (109.69)220 (115.31)110 (106.88)450
    4203904103801600
  • 해석
    • 독립
      지역3이고 B당을 지지할 확률 = B당 지지할 확률 x 지역3에 속할 확률 π23\pi_{23} = π2\pi_{2\cdot} * π3\pi_{\cdot 3} 이 성립한다면, 두 변수가 통계적으로 독립, 변수간 연관이 없다 라는 뜻이다.
    • 카이제곱 검정
      카이제곱 검정통계량 Q = 411.35는 자유도 (3-1)(4-1) = 6 인 카이제곱 분포를 따른다. 이 경우 p-value는 매우 작아 두 변수가 독립이라는 귀무가설은 기각한다.

3. 로지스틱 회귀분석

로지스틱 회귀분석(logistic regression analysis)은 일반화 선형모형이라 불리는 큰 범주의 통계모형 모델링 방법에 속하는 방법이다.

  • 일반화 선형모형 GLM(Generalized Linear Model)

    • 문자 그대로 선형적이지 않은 대상(비선형)을 선형적으로 '일반화' 시킨 모형이다.
    • 선형화의 목적 : 가장 대표적으로 선형모형에서만 사용할 수 있는 모형의 해석, 확장, 수정 등의 방법을 사용하기 위해서. 비선형모형의 경우는 모형을 다루는 방법이 많이 제한될 뿐만 아니라 새로운 데이터에 민감하기 때문에 선형모형에 비해 덜 선호되는 경향이 있다.
  • 로지스틱 회귀분석에서의 선형화

    • 관심 범주에 속할 확률 을 선형화한다. 확률은 일반적으로 예측자들에 따라 비선형하게 분포되어 있고, 형태는 S자 형태가 되는 경우가 많으며, 처음부터 확률에 선형라인을 적합시키는 방법도 있으나 제약이 존재한다.

Reference & Source

profile
Data Analyst

0개의 댓글