범주형 자료분석

JERRY·2025년 3월 18일

Statistics

목록 보기
7/19
post-thumbnail

1. 적합도 검정

  • 범주형 자료(categorical data)
    관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터

  • 범주형 자료 분석(categorical data analysis)
    범주형 자료에 대한 통계적 추론 방법
    범주형 자료 분석은 카이제곱 검정으로 추론함

  • 예시
    1) 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
    2) 성별에 따라서 선호하는 핸드폰 회사가 동일한가?

  • t-test와 카이제곱 검정의 차이
    t-test: 연속형 변수의 차이에 대한 검정
    명목형 변수에 대한 검정시 카이제곱 검정을 사용

  • 적합도 검정(goodness of fit test)
    관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정
    (ex) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C=1:1:2 였다고 가정해 보자.
    100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자

  • 독립성 검정(test of independence)
    관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
    (ex) 지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

  • 동질성 검정(test of homogeneity)
    서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
    (ex) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라

  • x2=(OiEi)2Eix^2 = \sum{\frac{(O_i - E_i)^2}{E_i}}, 자유도 = (범주의 개수)-1
    O는 관찰 빈도(observed frequency): 데이터로 부터 수집된 값
    E는 기대 빈도 (expected frequency): 기대값과 비슷한 개념

  • 문제 & 풀이
    문제 1
    주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자

    문제 2
    멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자. 100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자


2. 독립성 검정

  • 독립성 검정(test of independence)
    관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정

  • i=1rj=1c(OijE^ij)2E^ijx(r1)(c1)2\sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij}- \hat E_{ij})^2}{\hat E_{ij}} \sim x^2_{(r-1)(c-1)}

    자유도 = (r1)(c1)(r -1)(c -1)

  • 문제 1
    지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

    [가설] H0H_0 : 지역과 지지하는 정당은 서로 독립이다 vs H1H_1 : 지역과 지지하는 정당은 서로 독립이 아니다


3. 동질성 검정

  • 동질성 검정(test of homogeneity)
    서로 다른 모집단에서 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

(ex) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라

[가설] H0H_0 : 남녀간의 선호하는 핸드폰 회사는 동일하다 vs H1H_1 : 남녀간의 선호하는 핸드폰 회사는 동일하지 않다

0개의 댓글