통계적 유의성이란 통계학자가 자신의 실험(또는 기존 데이터에 대한 연구) 결과가 우연히 일어난 것인지 아니면 우연히 일어날 수 없는 극단적인 것인지를 판단하는 방법이다. 결과가 우연히 벌어질 수 있는 변동성 바깥에 존재한다면 우리는 이것을 통계적으로 유의하다고 말한다.
📈 용어정리
- P값 (P-value) : 귀무가설을 구체화한 기회 모델이 주어졌을 때 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률(우연히 일어날 확률)
- 알파 (alpha) : 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해, 우연에 의한 결과가 능가해야 하는 '비정상적인' 가능성의 임계확률
- 제 1종 오류 : 우연에 의한 효과를 실제 효과로 잘못 결론 내리는 것.
- 제 2종 오류 : 실제 효과를 우연에 의한 효과로 잘못 결론 내리는 것.
📈 p값
- 그래프를 눈으로 보는 것보다 p값과 같은 통계적 유의성을 정확히 측정하기 위한 지표가 필요하다.
- 이는 확률모형이 관측되는 결과보다 더 극단적인 결과를 생성하는 빈도라고 할 수 있다.
- "어떤 사건이 우연히 발생할 확률" = "우연히 발생했으니 비교대상은 서로 차이가 없다" = "귀무가설이 기각되지 않을 확률"
📈 유의수준
- 우연히 얻은(귀무가설) 결과의 5%보다 더 극단적인 결과와 같이 어떤 임계값(5%)을 미리 지정하는 것을 선호한다.
- 이 임계값을 보통 유의수준(알파, alpha)라고 한다.
- 많이 사용되는 유의수준은 5%와 1%이다.
- 많이사용되는 유의수준이라는 문장만 보아도 이 값이 임의로 선택된다는 것을 알 수있다.
- 따라서 올바른 x%를 보장하는 프로세스는 없다. 즉, 확률문제가 '우연히 일어날 확률은 무엇인가?'가 아니라 '랜덤한 모델이 주어졌을때, 극단적인 결과가 나올 확률은 어느정도인가?' 이기 때문이다.
📈 p값에 대한 논란들
- p값을 너무 확대해석하고 온갖 검정들을 p값으로 정하는 경우가 많다.
- 하지만, 우리가 p값을 통해 실제로 전달하고자 하는것은 결과가 우연에서 비롯될 확률이다.
- 우리는 더 낮은 p값을 원하고 뭔가를 증명했다고 결론을 내리기 원하지만 그저 랜덤한 모델이 주어졌을때, 그 결과가 관찰된 결과보다 더 극단적일 확률 정도이다.
- p값이 유의미하다고 해서 증거가 되지는 않고 통계적으로 유의미하다는 결론에 대한 논리적인 근거로서는 약하다고 볼 수 있다.
📈 미국통계협회의 p값에대한 6가지 원칙
- p값은 이 데이터가 특정 통계 모델과 얼마나 상반되는지 나타낼 수 있다.
- p값은 연구 가설이 사실일 확률이나, 데이터가 랜덤하게 생성되었을 확률을 측정하는 것은 아니다.
- 과학적 결론, 비즈니스나 정책 결정은 p값이 특정 임계값을 통과하는지 여부를 기준으로 해서는 안된다.
- 적절한 추록을 위해서는 완전한 보고서와 투명성이 요구된다.
- p값 또는 통계적 유의성의 효과는 크기나 결과의 중요성을 의미하지 않는다.
- p값 그자체는 모델이나 가설에 대한 증거를 측정하기 위한 좋은 지표가 아니다.
📈 실제로 유의미의 의미
- 결과가 통계적으로 유의미 하다고 해서 실제적으로 유의미 하다는 뜻은 아니다.
- 실질적으로 의미가 없는 작은 차이라도 표본이 충분히 클 경우 통계적으로 유의하다는 결과가 나올 수 있다.
- 표본이 클수록, 작고 의미없는 효과가 우연이라고 볼 수 없을 만큼 충분히 크게 보일 수 있다.
📈 1종 오류와 2종 오류
- 1종 오류 : 어떤 효과가 우연히 발생한 것인데, 그것이 사실이라고 잘못 판단하는 경우
- 2종 오류 : 어떤 효과가 실제로 있는 것인데, 그것이 우연히 발생한 것이라고 잘못 판단하는 경우
실제로 2종 오류는 어떤 오류라기보다는 표본의 크기가 너무 작아서 효과를 알아낼수 없다고 판단하는것과 같다. 즉, 표본이 적을 경우 우연히 일어난 것이라고 착각할 수 있다. p값이 통게적 유의성에 미치지 못하는 경우(예를 들어 5%초과), 실제 의미는 '효과가 아직 입증 되지 않았다'는 뜻이다. 표본크기가 더 클수록 p값이 더 작아진다.
유의성검정(가설검정)의 기본 기능은 우연히 일어난 일을 구분하고 속지 않게 하는것이므로 보통 1종 오류를 최소화 하도록 가설을 설계한다.
📈 정리
- 관심있고, 유용한 모델의 결과가 일반적인 랜덤 변이의 범위에 있는지를 알기위해서 사용하는 유용한 측정지표이다
- 유의성 검정은 무작위 변이의 범위내에 있는지 결정하는 데 사용된다.
- p값은 귀무가설로 부터 나올 수 있는 결과가 관찰된 결과만큼 극단적으로 나타날 확률다.
- 유의수준(알파, alpha)는 귀무가설 모델에서 '비정상'이라고 판단할 임계값을 말한다.