가설 검증(Hyphothesis Testing)

Minjung·2024년 7월 28일
0

Hyphothesis Testing = 가설 검증

가설 검증 : 어떤 population ← 변형을 가했을 때 유의미하게 변형이 되었는지 안되었는지

20대에 남녀 데이터에다가 (population = 모든 20대 남녀,그러나 전국의 20대 남녀는 알 수 없음, Population 중에서 일부를 sampling 하여 데이터를 수집한다. ) 어떤 treatmeant를 적용할 떄, 알려지지 않은 population을 찾고싶다.

→ 유의한 차이가 있다면, treatment에 의해 영향을 받은건지, sampling에 의해 변형이 된건지 확인해야함

가장 큰 목표 : 만약 sampling과 population간의 차이를 sampling error에 의해 설명할 수 있다면 이것은 treatment에 의한 영향이라고 말할수 없으며, sampling 과 population 간의 차이가 sampling error에 의해 설명되기에 너무 크다면 이는 treatment에 의한 영향이라고 말할 수 있다.

key elements (중요한 요소들) : Assumptions, Hypothesis, test statistic, p-value, conclusion

순서

1. Assumptions

분석을 할 때 따라야하는 가정들이 존재한다.

2. Hypothesis

1. Null Hyphothesis : treatment effect가 없었다고 가정한다. population에 treatment를 가했을 때 effect가 없었다고 가정 - 참
2. Alternative hyphothesis : population에 treatment를 가했을 때 effect가 있었다고 가정 - 참

Type of Errors
- Type 2 error : sampling수를 늘려서 웬만하면 해결이 됨
- Type 1 error : 어느정도의 신뢰구간을 가지고 그 안에서 확신을 하도록 조정함 (1%,5%)

차이가 없음차이가 있음
실제로 차이가 없음0Type 1 error
실제로 차이가 있음Type 2 error0

3. Test Statistic

- 실제로 null hyphothesis 에 가까운 값.
- 예를 들어 pearson에서 (-1~+1, p-value)일때 -1~+1 에 해당하는 값.
  1. P-value
    • null hypothesis가 참인 경우, 이를 얼마나 잘 설명할 수 있는지 나타냄
    • 얼마나 sampling error로 설명될 수 있는지 → p-value가 높으면 믿을 수 없다.
    • p-value가 높다는 것은 sampling error로 설명될 수 있다는 것(sampling error로 설명할 수 있으므로 treatment의 영향이 있다고 말하기 힘들다) , p-value가 낮다는 것은 sampling error로 설명하기 힘들다는 것

Step

  1. define study question = 문제정의
  2. set null or alternative hypothesis = null or alternative인지 정하기
  3. calculate a test statistc = 계산하기 (mean, pearson 등등)
  4. calculate a p-value = p-value 계산
  5. Make a decision and interpret your conclusion = 결론 도출

0개의 댓글