[이렇게 쉬운 통계학] 1장_4,5,6 추측 통계학

data_buddha·2023년 7월 26일
0
post-thumbnail

표본으로 생각하기 : 추측통계학 1

  • 큰 모집단을 얻지 못할 때, 추측 통계학 유용함
  • 모집단 : 대상이 되는 모든 데이터
  • 표본 : 모집단에서 모은 sample data
  • 모집단에서 표본을 선정하여 표본을 통해 모집단을 추측하는 것을 '추론통계학 inferential statistics'이라고 함

셜록 홈즈처럼 추리하기 : 추측통계학 2

  • inferential statistics의 두 기둥, '추정'과 '가설검정'
  • 표본 Data는 어디까지나 표본 데이터, 전체 모집단과 반드시 일치x

    (치우치지 않으려면) 어떻게 표본을 추출?
    어느정도의 표본 수?
    어떤 방법으로 표본에서 모집단을 추리?
    이때 오차는?

  • 위와 같은 네 가지의 과정을 고려해야함
  • 추정(통계적 추정) : 소수의 표본Data에서 모집단의 특징 추측
  • 가설검정(검증) : 전체 집단에 대해, 특정 가설의 검정을 일정확률로 검정

가설 세워 검증하기 : 추측통계학3

  • 표본Data 이용하여 모집단에 대해 특정 '가설'을 세운 뒤, 받아들여질 수 있는 '가설'인지 검증
  • 가설검정이란 예를 들어서, '소비자의 심리는 1000원을 기준으로 크게 달라지는 것이 아닐까?', '남여의 디자인 감각에는 차이가 있지 않을까?'의 가설이 있을 때 '옳고 그름'을 일정한 신뢰도 기준(95% or 99%) 이용하여 판단
  • 처음에 'A가 아닐까?'라고 생각한 A가설을 그대로 검증하는 대신, 그와 반대인 가설B를 '가설'로서세우고 판단. 가설B는 검증 후 기각될 것을 미리 기대하고 세우므로
  • '무로 돌아간다'는 뜻의 귀무가설null hypothesis
  • 원래 입증하고자 했던 가설A를 대립가설alternative hypothesis라고 함
  • 그리고 '가설B' 기각이므로, 가설A가 간접적으로 증명됨'이라는 에둘러가는 방법 이용
  • 일반적으로 추측통계학에선 '정규분포'등의 확률분포를 사용하여 모집단의 평균을 추정하거나 특정가설의 타당성을 판단
  • 그렇다면 판단 기준은? 95% or 99%라는 확률로 타당성 판단. 그러나 대부분의 수치는 '가설이 옳다고 생각했는데 드문 사건이 일어났다. 이는 가설이 틀렸기 때문이다'라는 판단의 확률범위일 뿐
  • 신뢰도 95%에서 판단이 틀릴 경우, 5%. 이를 위험률이라고 함
  • 왜 추측통계에서 정규분포를 사용하는가? 키나 몸무게 등 해당 표본Data의 분포가 '평균을 중심으로 좌우로 깔끔한 종 모양의 정규분포 곡선을 이룰 때가 많음'을 이용
  • 물론 모든 Data가 정규분포에 가까워지는 것은 아님
  • 오른쪽으로 갈수록 줄어드는 그래프도 있음, 이를 지수분포exponential distribution이라고 함
  • 이외에도 균등분포, 포아송분포, 이항분포 등이 있음
profile
来日方长 : 앞길이 구만리 같다; 앞길이 희망차다. 장래의 기회가 많다.

1개의 댓글

comment-user-thumbnail
2023년 7월 26일

정리가 잘 된 글이네요. 도움이 됐습니다.

답글 달기