기초통계 (19) 가설검정

생각하는 마리오네트·2021년 10월 4일
0

통계

목록 보기
25/41

가설검정 혹은 유의성검정의 목적은 관찰된 효과가 우연에 의한것인지 여부를 알아내는 것이다.

📈 용어 정리

  • 귀무가설 : 우연 때문이라는 가설
  • 대립가설 : 귀무가설과 대조(증명하고자 하는 가설)
  • 일원검정(one-way test) : 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
  • 이원검정(two-way test) : 양방향으로 우연히 일어날 확률을 계산하느 가설검정

📈 가설을 세워야 하는이유

  • 임의성을 과소평가하려는 인간의 경향
    - 동전던지기 50번을 예로들면 연속해서 앞면이 6~7번이 나오는 경우가 그렇게 이상한 일은아니다. 확률적으로 높지는 않지만 일어날 수 있는 일이다. 하지만 사람들은 앞면이 연속으로 3~4번이 나왔으면 다음은 뒷면이 나올것이라고 마치 최면을 거는듯한 생각을 가지게 될것이다. 실제로 이렇게 우연하게 6~7번이 앞면으로 나온것이 단순한 우연이 아닌 어떠한 의미가 있을것이라고 생각하는 경향이 있다.

  • 즉, 무작위 사건을 어떤 중요한 의미가 있는 패턴을 갖는 것으로 오해하는 경향이 있기때문

  • 통계적 가설검정은 연구자가 랜덤하게 우연히 일어난 일에 속지 않도록 보호하기 위한 방법으로 개발되었다.

  • 통계 가설검정이란 그룹 A와 그룹 B를 사이의 차이가 우연에 의한 것인지를 평가하기 위해 A/B검정이나 더 나아가 그 외 여러 무작위 실험을 포함하는 분석을 의미한다.

📈 귀무가설

  • 사람들은 우연히 발생한 일이라도 흔하지 않다면 무언가 의미가 있을거라고 해석하는 경향이 있다. 그래서 실험에서 얻은 그룹간의 차이가 무작위로 얻을 수 있는 합리적인 수준과는 극단적으로 다르다는 증거를 필요로 한다.

  • 즉, 그룹간의 차이는 우연에 의한 결과라는 것이 기본가정이고 이를 귀무가설이라고 부른다.

  • 우연에 의한 결과 = 차이가 없을것이다.

  • 따라서 귀무가설이 틀렸다는 것을 입증해서 A그룹과 B그룹 간의 차이가 우연이 아니라는 것을 보여주는 것이 모두의 희망이다.

  • 이를 위한 방법중 재표본추출중 순열검정을 통한 방법이 있다.

  • A와 B그룹의 결과를 서로 섞어서 비스한 크기의 그룹들을 반복적으로 만든 다음, 관찰된 차이를 각 경우에서 발생되는 차이와 비교했을때 얼마나 극단적인지 관찰하는 방법이다.

  • 그룹 A와 B를 섞어서 만든 결과들을 결합한 것과 이들로부터 재표본하는 절차는 그룹 A와 B가 동등하고 상호교환이 가능하다는 귀무가설을 구현하는 것이다.

📈 대립가설

  • 디립가설은 귀무가설과 대립되는 가설로서 귀무가설과 대립가설을 합치면 모든 가능성을 설명할 수 있어야합니다.
  • 대립가설 예시
    귀무가설 : 그룹A와 그룹 B의 평균에는 차이가 없다.
    대립가설 : A는 B와 다르다 (더 크거나 작을 수 있다.)

귀무가설 : A <= B
대립가설 : A > B

📈 일원/ 이원 가설검정

  • 보통 A/B검정에서는 새로 처리한 옵션이 완벽히 더 나은것으로 입증되지 않는 이상, 기본 옵션을 계속 사용한다는 것이 가정이다.
  • 즉, B를 선호하는 방향으로 우연에 의해 속지 않도록 가설검정 하기를 원할 것이다.
  • 따라서 우리는 방향성을 고려한 대립가설이 필요하다.
  • B는 A보다 낫다. => 일원가설검증 : 우연에 의한 극단적인 결과에 대해 한 방향만을 고려하여 P값을 계산한다는 의미이다.
  • 어느 쪽으로도 속지 않도록 가설검증을 원한다면 양방향이 된다. 이를 이원가설검증 방법이라한다. : 우연에 의한 극단적인 결과가 양쪽에서 나타날 P값을 계산한다는 것을 의미한다.
  • 보통 A/B검정 특성상(B가 A보다 좋다) 일원가설검증이 더 잘어울리지만 논쟁을 피하기 위해 더 보수적인 이원가설검증을 선택한다. 하지만 이것이 데이터과학자에게 그렇게 중요한 쟁점은 아니다.
profile
문제를해결하는도구로서의"데이터"

0개의 댓글