Producing Data and Sampling

Dayne·2024년 11월 27일

Statistical inference는 예를 들어 2억 5천만 명에 해당하는 Population을 다 조사하지 않고 100 혹은 1000명의 sample만 조사해도 모집단의 특성이나 parameter를 추정할 수 있게 해주기 때문에 매우 강력하다.


Bias in sampling (≠ sampling error)

  • Selection bias, non-response bias, voluntary response bias
  • bias를 어떻게 없앨까? random sampling!
    • simple random sampling
    • stratified random sampling
      • eg.) US voters를 샘플링할 때 urban voters, suburb voters, rural voters로 나눠 각 계층에서 simple random sampling을 수행하고 다시 합친다.
      • 당연히 simple random sampling 보다 더 복잡하다.
      • simple random sampling보다 더 정교한 방식이다.

Bias and Sampling error

샘플에서 추정한 estimate은 population의 parameter와 차이가 있다. 샘플을 두 번 뽑는다고 하면, 각각에서 구한 estimate은 또 서로 다를 것이다. estimate은 아래와 같은 공식을 따른다.

estimate=paramter+bias+sampling errorestimate = paramter + bias + sampling\space error
  • bias == systematic error
    • eg.) selection bias, non-response bias, voluntary response bias
  • sampling error == chance error
  • sampling error를 줄이는 가장 쉬운 방법? sample size 키우기

Observation studies

  • 육류를 자주 섭취하는 사람이 그렇지 않은 사람보다 암에 더 자주 걸린다는 사실을 발견했다.
  • 이 사실을 통해 육류 섭취가 암의 원인이라고 할 수 있을까?
    • “Correlation is not a causation”이라는 유명한 말이 있다. 이런 observation에서 인과관계를 도출해서는 안 된다.
    • 생활 습관, 식이요법, 운동량, 활동량 등이 더 직접적인 원인이 될 수 있기 때문이다. 이러한 요인들을 confounding factors라고 한다. 예를 들어, 고기를 많이 먹는 사람들이 적게 먹는 사람들보다 운동을 적게 하는 경향이 있을 수 있다.

Randomized Controlled Experiments

  • 위 observation study에서 발견한 사실이 인과관계인지 확인하려면 “experiment”를 해야한다.
  • 실험의 중요한 특징은 세 가지다.
    1. Random: treatment group과 control group을 랜덤하게 생성한다. 이때 treatment는 eating red meat이다.
    2. placebo: “placebo effect”란 treatement를 받았다는 이유만으로 심리적, 생리적 영향이 발생하는 현상이다. 이 영향을 제거하기 위해 control group에 placebo를 제공한다.
      • eg.) 특정 약물이 IQ를 높이는지 확인하는 실험이라면, control group에도 treatment group에 제공하는 약물과 동일하게 생긴 가짜 약물(실제 약물은 들어있지 않음)을 제공한다.
    3. two-blinded: subject는 자신이 어느 집단에 속하는지 모르고, evaluator 또한 특정 피실험자가 어느 집단에 속하는지 모른다. 그렇지 않으면 evaluator가 특정 집단을 더 높이 평가하려는 경향이 나타날 수 있다.
profile
훗날 나를 위한 기록

0개의 댓글