[Introduction to Statistics] Data & Sampling / Probability

carpediem·2022년 12월 4일
0

기초통계

목록 보기
2/5

Data& Sampling

What is statistical inference?

  • 통계적 추론은 전수 조사가 불가능할 때, 유용하다. 선거를 생각해보자. 만약 모든 조사를 위해서는 굉장히 많은 수의 사람들의 투표 결과가 필요하기에 이를 모두 전수 조사하기엔 어려움이 있다. 이 때, 일정 수의 사람들을 랜덤으로 지정하여 추정한다.
  • 이를 통계적 용어로 표현하면 모든 Population에 대해서 Parameter추정하기 위해서, Sample을 통해 Statistic한다고 볼 수 있다.

Sampling correctly is very important!

  • 어떻게 샘플링 하는 지에 따라 결과가 달라지기 때문에, 샘플링의 설계는 중요하다. 예를 들어, 편의에 의한 샘플링은 특정 결과가 유도되도록 할 가능성을 높일 것이고 (selection bias),
  • 특정 시간, 기간, 장소에 따라서 특정 그룹만 응답 되는 문제가 발생할 수 도 있다 (non-response bias).
  • 마지막으로, 응답을 무성의하게 대답하는 경우(voluntary response bias) 가 있다.

Sampling designs, Bias and chance error

  • 랜덤으로 샘플하게 되면, 그 추정은 parameter와 달라지고 chance error가 발생하게 된다.
  • Estimate = parameter + bias + chance error
  • 에러는 sampling error, systematic error로 나눌 수 있다. sampling error는 표본의 크기를 키우면 그 에러 크기가 줄어들지만, 그렇지 않다. systematic error의 경우 샘플의 크기를 키워도 동일하게 발생한다.

Observational Studies

  • Association과의 구별. 만약 고기를 먹는 사람들이 안먹는 사람들보다 특정 암의 비율이 높았다고 해보자.
  • 하지만 이 경우, 고기를 안먹는 사람들이 사실 술도 적게 먹고 운동도 더 많이 한다면 이 요인들이 암에 더 영향을 줬을 수도 있다.
  • 따라서 연관 관계(association) 와 인과관계(causation)를 구분하여야 한다. 이런 여러 교란 작용(confounding factors)들을 확인할 수 있다.

Randomized controlled exprements

  • 아까 고기 먹는 집단을 실험하기 위해서 treatment group으로 두고 그렇지 않은 사람들을 control group으로 둔다.
  • 두 그룹을 비교하는데, control group에서 treatment를 한 바 없는데 자연적으로 효과를 보이는 현상.
  • 관찰 시, randomization을 취하게 되는데, 이는 1) treatment group과 control group 를 최대한 유사하게 만들어서 차이를 줄이고 2) 치료효과가 얼마나 적절한지 평가하기 위한 환경을 마련한다.

→ 스탠포드 왈터 교수님이 친절하게 강의자료에 다 써놓는 편이다. 이해하여 한국어로 정리한 버전으로, 아직은 기초 용어 정리하기에 충분하다.

Probability

  • 어떤 Event의 Probability는 같은 반복에서 그 event가 발생할 proportion of times로 정의된다.
  • 이를 위해서는 많은 시행과 반복될 가능성이 필요하다.
  • 하나의 사건은 사람마다 달라질 수 있다. 예를 들어서 친한 친구들로부터 전화가 하루에 올 확률은 사람마다 다를 것이다. 이런 것을 subjective probability라고 한다.

Four basic rules

  • 확률은 항상 0과 1 사이에 있다.
  • P(태어난 아이가 여자) = 48.8 이와같이 표현한다. 이 때, 태어난 아이가 여자와 같은 event 는 A와 같은 대문자로 치환 가능하며, P(A) 로 쓸 수 있다.
  • ★★Complement rule : P(A does not occur) = 1-P(A)

  • ★★Additional rule : A and B are mutually exclusive. P(A or B) = P(A) + P(B)

  • ★★Multiplication rule : P(A and B) = P(A) P(B) (Special case where A and B are independent.)

  • ★★General mulitiplication rule : P(A and B) = P(A) P(B|A)

  • Conditional probability

    • 예를 들어서 메일 중에 스팸이 나타날 확률은 P(spam) = 20% 라고 해보자.
    • 이 때, 스팸 메일 중, “money”라는 돈이 나타날 확률은 조건부 확률로 표현할 수 있으며, P(money|spam) 이라고 표현한다.
    • 만약, P(money|spam) = 8% P(money|ham) = 1% 라면, P(money)는 P(money|spam)P(spam) + P(money|ham)P(ham)이 된다.

★★★ Bayes’ rule

  • 위 예제를 이어서 생각해보면, 우리는 spam 메일이 올 확률, spam 메일일 때, money라는 단어가 나타날 확률을 계산했다.

  • 하지만, 반대로 money라는 단어가 나타났을 때, spam 메일일 확률은 어떻게 될까?

  • 이런 대답을 위해 베이지안 룰을 이용한다.

P(BA)=P(A  and  B)P(A)=P(B  and  A)P(A)=P(AB)P(B)P(A)P(B|A) = {P(A \; and \; B) \over P(A)} = {P(B \; and \; A) \over P(A)} = {P(A|B)P(B) \over P(A)}
=P(AB)P(B)P(AB)P(B)+P(AnotB)P(notB)= {P(A|B)P(B) \over P(A|B)P(B) + P(A|not B)P(not B)}
  • P(spam | money) = P(money|spam) P(spam) / P(money)
    • 여기서 spam일 확률은 우리가 갖고 있는 데이터 정보로 얻을 수 있거나 (그렇지 않은 경우, 믿음에 의해 자유적으로 설정할 수도 있다.) spam인 메일이 money를 갖고 있을 확률에 대해서도 데이터를 통해 그 확률을 구해볼 수 있다.
    • P(money)의 경우도 다시, 베이지안을 이용해서 쪼개볼 수 있다. P(money|spam)P(spam) 정보가 있다면, 배타적인 ham에 대해서도 complement rule에 따라, P(money|ham) P(ham)을 구할 수 있다. additional rule 에 따라 더하면 P(money)를 구할 수 있다.
profile
Seize the day!

0개의 댓글