p-value란?

yoonene·2022년 4월 27일
0

면접대비

목록 보기
5/17

Q: p-value를 모르는 사람에게 설명한다면 어떻게 설명하실 건가요?


표본 통계량을 통해 모집단에 대한 가설을 검정할 때, 우선 대립가설과 귀무가설을 수립합니다. 대립가설이란 쉽게 말해 연구자가 주장하고자 하는 가설이고 이에 반대되는 가설을 귀무가설이라고 합니다. 귀무가설을 기본적으로 참으로 두고 이를 기각할 수 있느냐 없느냐를 판단하도록 하는 값을 p-value라고 합니다. 다시 말해 p-value는 귀무가설을 기각하고 대립가설을 채택할 수 있는지를 검정하기 위해 사용됩니다. 이 유의확률이 작을수록 귀무가설을 기각해야만 하는 증거가 강함을 의미합니다.

(p-value에 대해 더 자세히 설명하자면, 표본 평균을 기준으로 귀무가설을 기각한다고 가정하였을 때 제 1종 오류를 범할 확률의 최소값을 의미합니다. 여기서 제 1종 오류란 귀무가설이 참이지만 이를 기각하는 오류를 의미합니다. 그리고 이러한 오류를 허용할 수 있는 최대 확률인 유의수준을 설정합니다. 따라서 표본을 통해 구한 p-value값이 유의수준보다 크다면 귀무가설을 기각할 수 없고 작다면 기각하여 대립가설을 채택할 수 있습니다.)

  • 용어 정리
    • 가설 검정: 귀무가설, 대립가설 중 하나를 채택하고 나머지를 기각시키는 결정을 내리는 과정
    • 귀무가설(H0) : 대립가설이 참이라는 확실한 근거가 없을 때 채택하는 가설
    • 대립가설(H1) : 표본 정보로부터 입증하고자 하는 가설
    • 검정 통계량: 가설 검정에 이용하는, 검정의 기준을 결정하는 통계량
    • 제 1종 오류 : P(reject H0 l H0) 알파
    • 제 2종 오류 : P(not reject H0 l H1) 베타
    • p-value(유의확률) : 검정통계량의 관측값에 대해 H0을 기각할 수 있는 가장 작은 P(reject H0 l H0)
  • 예제
    Q) A 후보에 대한 지지율이 0.5보다 낮을 것이다. (H1)
    H0: P = 0.5 vs. H1: P < 0.5
    유권자 표본: n = 15
    검정통계량: Y = 표본에서 A 후보자 지지자 수
    만약 Y = 3 이라면 p-value는?

    A) Y 가 작을수록 기각될 증거가 강함.
    p-value = p(Y ≤ 3 | H0)
    H0가 참이라는 가정하에 Y ~ Bin(15, 0.5)
    따라서 유의확률은 0.018 (Binomial Probabilities Table)
    보통 유의수준이 0.05니까 기각

면접 질문 출처
https://github.com/zzsza/Datascience-Interview-Questions

profile
NLP Researcher / Information Retrieval / Search

0개의 댓글