통계학 기초 03 유의성 검정

Data_Student·2024년 11월 12일
0

통계학 기초

목록 보기
3/10

통계학 기초 03 유의성 검정


3.1 A/B 검정

1)A/B 검정

  • 두 버전 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정
  • 마케팅, 웹사이트 디자인 등에서 많이 사용
  • 사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후 반응을 비교
  • 목적
    • 두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인

2) A/B 검정이 실제로 어떻게 적용되어질까?

  • 두개를 비교하여 구매 전환율이 큰 것을 선택

    • 온라인 쇼핑몰에서 두 가지 디자인에 대한 랜딩 페이지를 테스트하여 어떤 디자인이 더 높은 구매 전환율을 가져오는지 평가
  • t-test를 이용하여 비교


3.2 가설검정

  • 데이터가 특정 가설을 지지하는지 검정
  • 귀무가설 or 대립가설

1) 가설검정

  • 표본 데이터를 통해 모집단의 가설을 검증하는 과정
    즉, 데이터가 특정 가설을 지지하는지 평가하는 과정
    귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지 결정
    데이터 분석시 두가지 전략을 취할 수 있음

  • 확증적 자료분석

    • 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석
  • 탐석잭 자료분석(EDA)

    • 가설을 먼저 정하지 않고 데이터를 탐색해보고 가설 후보를 찾고 데이터 특징을 찾는 것
  • 단계

    1. 귀무가설(H0)과 대립가설(H1) 설정
    2. 유의수준 결정
    3. 검정통계량 계산
    4. P-값과 유의수준 비교
    5. 결론 도출

2) 통계적 유의성과 p값
(1) 통계적 유의성

  • 결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
    p값은 귀무 가설이 참일 경우 관찰된 통계치가 나올 확률을 의미
    일반적으로 p값이 0.05 미만이면 결과를 통계적으로 유의하다고 판단

(2) p-값

  • 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
    일반적으로 p-값이 유의수준 보다 작으면 귀무가설을 기각
    유의수준으로 많이 사용 하는 값이 0.05 (조금 더 유의미한 결과 0.01)

(3) p-값을 통한 유의성 확인

  • p-값이 0.03이라면, 3%의 확률로 우연히 이러한 결과가 나타남
    일반적으로 0.05이하면 유의성이 있다고 봄

3) 신뢰구간과 가설검정의 관계

  • 신뢰구간과 가설검정
  • 둘 다 데이터의 모수에 대한 정보를 구하고자 하는 것이지만 접근 방식이 다름
  • 신뢰구간
    • 특정 모수가 포함될 범위를 제공
  • 가설검정
    • 모수가 특정 값과 같은지 다른지 테스트

4) 가설검정이 실제로 어떻게 적용되어질까?

  • 새로운 약물이 기존 약물보다 효과가 있는지 검정
  • 효과의 차이가 없다 귀무가설
  • 새로운 약물이 효과가 있다 대립가설

3.3 t검정

1)가설검정의 대표적인 검정

  • t-검정

    • 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
    • 독립표본 t검정과 대응표본 t검정으로 나뉨
  • 독립표본 t 검정

    • 두 독립된 그룹의 평균을 비교
  • 대응표본 t 검정

    • 동일한 그룹의 사전/사후 평균을 비교

2) 가설 검정이 실제로 어떻게 적용될까?

  • p-값을 통한 유의성 확인
    • 두 클래스의 시험 성적 비교(독립표본 t 검정)
    • 다이어트 전후 체중 비교(대응표본 t 검정)

3.4 다중검정

1) 다중검정이란 무엇인가?

  • 여러 가설을 동시에 검정, but 오류가 발생할 수 있음
  • 각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가
  • 보정 방법
    • 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등
    • 가장 대표적인 보정 : 본페로니 보정
    • 다중 검정을 실시할 때에는 1종 오류가 발생할 수 있기 때문에
      p-값을 더 세밀하게 조정이 필요!
      그렇기 때문에 꼭 다중검정시에는 보정이 필수!

3.5 카이제곱검정

1) 카이제곱 검정

  • 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)
  • 두 범주형 변수 간의 독립성을 검정(독립성 검정)
  • 적합도 검정 - chisquare 함수 사용
    • 관찰된 분포와 기대된 분포가 일치하는지 검정
    • p-값을 통해 귀무가설 채택여부 결정
  • 독립성 검정 - chi2_contingency 함수 사용
    • 두 범수형 변수 간의 독립성을 검정
    • p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
    • p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음

3.6 제 1종 오류와 제 2종 오류

1) 제 1종 오류

  • 귀무가설이 참인데 기각하는 오류
  • 잘못된 긍정을 의미(아무런 영향이 없는데 영향이 있다고 하는 것), 위양성
  • 유의수준(α)을 정함으로써 제 1종 오류 제어 가능
  • 다중 검정시 제 1종 오류가 증가하는 이유?
    하나의 검정에서 제 1종 오류가 발생하지 않을 확률은 1-α

2) 제 2종 오류

  • 귀무가설이 거짓인데 귀무가설을 기각하지 않음
  • 잘못된 부정을 의미 (영향이 있는데 영향이 없다고 하는 것), 위음성
  • 제 2종 오류가 일어날 확률은 β로 정의
  • 직접 통제할 수 없음
  • 간접적 통제 방법
    • 표본크기 n이 커질 수록 β가 작아짐
    • α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐

0개의 댓글