CH03_추측통계학

phillip oh·2020년 4월 7일
1

통계학도감

목록 보기
3/4
post-thumbnail

3.1 추측통계학

  • 추측통계학은 관측 데이터(표본)로부터 모집단의 특성을 추측하는 학문.
  • 오차 개념이 도입된다는 점이 기술통계학과 다름.

3.2 불편추정

  • 불편추정 : 표본을 이용해 모수에 대해 치우침 없이 추정하는 것.
    - 기술통계학의 방법으로 통계량을 계산하면, 모수와 차이가 발생하지만, 불편추정량을 이용하면 이를 줄일 수 있다.
    • 불편평균 : 표본평균을 그대로 사용.
    • 불평분산 : 표본분산과 다르게 n이 아닌 n-1로 계산.

3.3 자유도

  • 자유도 : 통계량 계산에 사용하는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수. 즉, 표본 크기에서 제약 조건의 수를 뺀 값.
  • 주의) 자유도가 항상 n-1인 것은 아니다.

3.4 평균의 분포

  • 개별 관측 데이터뿐 아니라 표본 통계량도 확률분포를 따른다.
  • 표본오차 : 표본분포의 불규칙한 분포 크기 즉, 표본분포의 표준편차.
  • 표본분포 : 모집단에서 반복해서 무작위로 추출한 표본통계량의 확률분포.
  • 표준오차(standard error) : 표본통계량의 표준편차 즉, 표본에서 얻은 추정량의 오차의 크기.

3.5 비율의 분포

  • 표본비율(sample ratio) : 어떤 성질을 가지는 요소가 표본에서 차지하는 비율
  • 표본비율은 n이 커지면, 정규분포를 따른다.

3.6 분산의 분포

  • 표본(불편)분산에 비례하는 통계량으로 변환하면, 그 통계량은 자유도가 n-1인 x2x^2분포를 따른다.

3.7 상관계수의 분포

  • 모상관계수 != 0 : 표본상관계수 r은 기울어진 분포를 따르므로, 피셔의 z변환을 하여 정규분포를 따르도록 만든다.
  • 모상관계수 = 0 : 표본상관계수 r은 스튜던트화해 t분포를 따른다.
    - 이 경우, 상관계수의 검정에 이용 가능.

3.8 계통오차와 우연오차

  • 계통오차 : 우연하지 않고 이유가 있는, 패턴이 있는 오차. 제거/수정 가능.
  • 우연오차 : 우연한 오차. 제거/수정 불가. 하지만, 표본크기와 밀접하게 관련 있기 때문에, 표준편차로 크기를 평가하거나, 반복하여 작게할 수 있음.
  • 표준오차 : 표본분포가 고르지 않은 것. 표본평균의 우연 오차 지표. 표본 크기가 커지면, 표준오차는 작아진다.

3.9 대수의 법칙과 중심극한정리

  • 대수의 법칙 : 표본 크기가 커짐에 따라 표본평균은 모평균에 가까워진다.

  • 중심극한정리 : 개별 데이터의 모집단이 정규분포를 따르지 않아도 거기서 추출한 표본이 충분히 크면, 표본평균은 정규분포를 따른다.

  • 참고문서
    - 통계학도감(쿠리하라 신이치, 마루야마 아츠시 저)

profile
모빌리티 스타트업에서 데이터를 다루고 있습니다.

0개의 댓글