고급 분석 기법 Advanced Analytics

: ) YOUNG·2021년 11월 13일
2

빅분기

목록 보기
1/20
post-thumbnail

범주형 자료 분석

분할표 분석

  • 분할표를 이용하여 범주형 자료 분석은 상대위험도와 승산비(odds)를 통하여 분석한다.
  • 범주형 자료의 개수에 따라 1개의 범주형 변수에 의한 일원(One-way) 분할표와 2개의 범주형 변수에 의한 이원(Two-way)분할표, 3개 이상의 범주형 변수와 2개의 범주형 변수에 의한 이원(Two-way) 분할표, 3개 이상의 범주형 변수에 의한 다원(Multi-way) 분할표로 나눌 수 있다.
  • 행은 독립변수, 열은 종속변수로 나눌 수 있다.
  • 분할표의 각 행의 마지막 행과 각 열의 마지막 열에는 총계 데이터를 표시한다
    이러한 행 또는 열을 Margin Sum(주변 합)이라고 부른다.

고급 분석 기법의 종류 ★★★★★★★★(중요)

카이제곱 검정

카이제곱 검정의 x^2값은 편차의 제곱 값을 기대빈도로 나눈 값들의 합이다.

카이제곱 검정은 범주형 자료간의 차이를 보여주는 분석 방법으로 관찰된 빈도가 기대되는 빈도와 유의미 하게 다른지의 여부를 검정하기 위해 사용된다.

적합도 검정(Goodness of Fit Test), 독립성 검정(Test of Independence), 동질성 검정(Test of Homegeneity) 3가지로 분류할 수 있다.

기대빈도는 귀무가설에 따라 계산된다.

기대빈도는 관측빈도의 총합에 범주별 확률(귀무가설)을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 같다

귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다

기대빈도 5이하인 셀이 전체의 20%가 넘지 않아야 하며, 5보다 적으면 사례수를 증가시켜야 한다.

적합도 검정(Goodness of Fit Test) ★★★★★★★★(중요)

변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법이다.

표본 집단의 분포가 주어진 특정 분포를 따르고 있는지를 검정하는 기법이다.

적합도 검정의 자료를 구분하는 범주가 상호 베타적이어야 한다.

독립성 검정(Test of Independence) ★★★★★★★★(중요)

변수가 두 개 이상의 범주로 분할되어 있을 때 사용되며, 각 범주가 서로 독립적인지, 연관성이 있는지를 검정하는 기법이다.

기대빈도는 ‘두 변수가 서로 상관이 없고 독립적’이라고 기대하는 것을 의미하며 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힌다.

독립성 검정에서 귀무가설은 ‘요인 1’과 ‘요인 2’는 독립적이다‘로 설정한다.

동질성 검정(Goodness of Fit Test) ★★★★★★★★(중요)

각각의 독립적이 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질한지 (비슷하게 나타나고 있는지) 여부를 검정하는 기법이다.

각 부모집단의 동질성 여부를 검정하는 차이가 있다.

동질성 검정에서의 귀무가설은 ’모집안은 동질하다‘로 설정한다.

동질성 검정과 독립성 검정은 개념상의 차이만 있을 뿐 계산 방식은 동일하다.


피셔의 정확 검정(Fisher's Exact Exam)

  • 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 피셔의 정확검정을 실시한다.

  • 범주형 데이터에서 기대빈도가 5미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 피셔의 정확 검정을 사용한다.


T-검정(T-test) ★★★★★★★★(중요)

독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법이다.

두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용한다.

T-검정에는 단일표본 T-검정, 대응표본 T-검정(Paired Sample T-Test), 독립표본 T-검정(independent Sample T-Test)이 있다.

단일표본 T-검정(One Sample T-Test)

  • 단일표본 T-검정은 한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법이다.
  • 모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지를 검정한다.
  • 단일표본 T-검정은 실제로 표본 집단의 수가 1개가 되고, 연구자가 측정한 집단의 평균과 기존의 연구를 통해서 제시된 수치와 비교하는 것이다.

대응표본 T-검정(Paired Sample T-Test)

  • 동일한 집단의 처치 전후 차이를 알아보기 위해 사용하는 검정 방법
  • 한 그룹의 처치 전 데이터와 처치 후 데이터를 분석하는 방법이다.
  • 표본(Sample)이 하나, 독립변수가 1개일 때 사용된다.

독립표본 T-검정(independent Sample T-Test)

  • 데이터가 서로 다른 모집단에서 추출된 경우 사용할 수 있는 분석 방법이다.
  • 독립된 두 집단의 평균차이를 검정하는 방법이다.
  • 검정을 하기전에 반드시 등분산성, 정규성 가정이 만족하는지 확인한다.
  • 표본이 둘, 독립변수가 1개일 때 사용된다.

0개의 댓글