통계 3

BlackLabel·2023년 11월 9일

통계

목록 보기
3/4

가설검정

가설검정

  • 가설 검정 = 가설(Hypothesis) + 검정(Testing)

  • 가설: 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함

  • 통계학에서는 특히 모수를 추정할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장가설이라 함

  • 귀무 가설(Null hypothesis: H0)

    -기존의 사실(아무것도 없다, 의미가 없다)
    -대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구 목적이 아님
    -예) H0 : 코로나 백신이 효과가 없다, H0:μ = 0

  • 대립 가설(Alternative hypothesis: H1)

    -데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대
    -예) H1: 코로나 백신이 효과가 있다, H0 : μ ≠ 0 or μ ≥ 0

유의수준

  • 제 1종 오류: 귀무가설이 참이지만, 귀무가설을 기각하는 오류

    -H0를 기각할 확률이 α라고 하면 채택하게 될 확률은 1 - α로 표시할 수 있음
    제 1종 오류를 범할 확률의 최대허용 한계를 유의수준이라고 하며, α라고 표시

  • 제 2종 오류: 귀무가설이 기각해야 하지만, 귀무가설을 채택하는 오류

  • 검정통계량: 귀무가설이 참이라는 가정 하에 얻은 통계량

    -검정 결과 대립가설을 선택하게 되면 귀무가설을 기각함
    -검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함

  • P-value: 귀무가설이 참일 확률
    -0~1사이의 표준화된 지표(확률값)
    -귀무가설이 참이라는 통계량이 귀무가설을 얼마나 지지 하는지를 나타낼 확률

  • 기각역(reject region):귀무가설을 기각시키는 검정통계량의 관측값의 영역

  • 가설 검정의 절차

  1. 가설 수립 (H0 : 코로나 백신이 효과가 없다 , H1 :코로나 백신이 효과가 있다)
  2. 유의 수준 결정: 유의 수준 α 정의
  3. 기각역 설정
  4. 검정통계량 계산
  5. 의사 결정
  • 양측검정(two-side test): 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장

    -A백신과 B백신의 코로나 면역력에는 차이가 있다
    -A팀과 B팀의 평균 연봉은 차이가 있다

  • 단측검정(one-side test): 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장

    -A제품의 수율이 B제품의 수율보다 크다
    -A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

단일 표본에 대한 가설 검정

  • 모평균 가설 검정 - 모분산을 아는 경우

가설:

  • 예시) 커피의 카페인 함량이 140mg이라고 표기 되어 있다. 이 수치가 정확한지 확인하기 위해서 조사해본 결과 100개의 제품을 대상으로 측정한 결과 평균 138.0로 확인 되었다 표준편차가 15일 때 유의수준 0.05에서 가설 검정을 해보자

  • 모평균이 가설검정 = 모분산을 모르는 경우(소표본)

가설:

  • 모비율 가설검정

가설:

  • 예시) 코로나 백신 A약에 대해서 80%이상 백신효과가 나타나야 효과가 있다고 판단하고 계속해서 약을 판매할 수 있다고 하자.
    100명에 대해서 조사를 한 결과 78명만 백신 효과가 있었다고 한다면 이에 대해서 유의 수준 0.05에서 검정해보자

두개의 표본에 대한 가설 검정

  • 대표본 - 모분산을 아는 경우

가설:

  • 소표본 - 모분산을 모르는 경우

가설:

  • 예시) 중 감소 보조제의 성능을 비교하기 위해 A와 B 두군으로 나누고 약을 먹고 6개월 후 체중 변화를 측정하였다. B약이 A약보다 더 체중감소에 효과가 좋다고 할 수 있는지 유의수준 0.05에서 검정하여라

  • 대응 비교

범주형 자료분석

  • 범주형 자료(categorical data): 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터

  • 범주형 자료 분석(categorical data analysis)
    -범주형 자료에 대한 통계적 추론 방법
    -범주형 자료 분석은 카이제곱 검정으로 추론함

  • 예시)

  1. 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
  2. 성별에 따라서 선호하는 핸드폰 회사가 동일한가?
  • t-검정과 카이제곱 검정의 차이: t-검정은 연속형 변수의 차이에 대한 검정, 명목형 변수에 대한 검정 시 카이제곱 검정을 사용

적합도 검정

  • 적합도 검정(goodness of fit test): 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정

  • O관찰 빈도(observed frequency): 데이터로 부터 수집된 값
  • E기대 빈도 (expected frequency): 기대값과 비슷한 개념
  • 기대빈도는 예를 들어 남녀 1000명의 데이터에서 각 성별의 기대 빈도는 500명임
    주사위 120번을 던졌을 때 각 눈이 나오는 기대빈도는 20번임
  • 예시1) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자

  • 예시2) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준
    0.05에서 검정해보자

  • 예시3) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자.
    100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자

독립성 검정

  • 독립성 검정(test of independence): 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정

  • 예시) 지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

동일성 검정

  • 동질성 검정(test of homogeneity): 서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

  • 예시) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라

  • 우리는 일반 적으로 그러면 어떻게 분석을 하고 있고 어떤 관점으로 분석을 해야 하는가?

  • 시간에 흐음에 따라서 어떤 산업이 거래액이 증가하고 있고 어떤 업종이 비중이 떨어지는가?

상관분석

  • 상관관계(correlation coefficient): 두 변수간의 함수 관계가 관계가 있는지 파악할 수 있는 측도가 상관계수임

1) 상관계수 -1 ≤ p ≤ 1
2) 상관계수가 1에 가까울수록 양의 상관계가 강함
3) 상관계수가 -1에 가까울수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 존재하지 않음
5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재하지 않는다는 것임

  • 표본상관관계(sample correlation coefficient)

가설검정

  • 예시) A반의 학생들의 키와 몸무게를 조사하였다. 두 변수 간의 상관관계를 유의수준 0.05에서 검정해보자

profile
+database

0개의 댓글