06. 추정 및 검정

maro·2024년 1월 27일
0

"프로그래머를 위한 확률과 통계" 책과 스터디 내용을 기반으로 작성하였습니다.


6.1 추정론

1) 기술 통계와 추론 통계

  • 기술 통계

    • 수집한 데이터를 대표하는 값들을 추출을 하면서 데이터를 묘사하는 방법
    • 간결한 요약정보 제공
    • 평균, 분산, 중앙값, 사분위수 등
  • 추론 통계

    • 표본 데이터로 모집단의 분포를 파악할 때 사용
    • 전체 정보를 얻기가 어려운 경우 많이 활용

2) 모수적 vs 비모수적

  • 모수적
    • 분포에 대한 가정 존재 ex) 중심극한정리에 따른 표본의 분포는 정규분포
    • 더 강한 가정이지만 적용 범위가 넓지 않습니다.
  • 비모수적
    • 분포에 대한 가정이 존재하지 않습니다.
    • 적용 범위가 넓습니다.

3) 평가기준

  • 제곱 오차

    • 다루기 쉽고 가장 널리 사용
    • 추정량의 경우 매번 바뀌는 표본 데이터의 변동이 문제가 있습니다.
  • *다목적 최적화

    • *최소분산불편 추정

      • 가능한 추정량들 사이에서 분산이 가장 작고, 편향이 작은 것
    • *최대 우도 추정

      • *일어날 가능성이 가장 크다.
      • 분포가 주어졌을 때 주어진 데이터에 대해 가장 가능성이 높은 값을 찾습니다.
    • 베이즈 추정

      • *사전정보와 주어진 데이터를 모두 고려합니다.
        ex) 환자가 특정질병에 걸렸을 확률을 추정하는 경우
        • 사전에 알려진 발병률과 환자의 검사결과를 결합하여 질병에 걸렸을 확률을 추정합니다.

6.2 검정론

1) 귀무가설과 대립가설

  • 귀무 가설 : 반박하고자 하는 가설

  • 대립 가설 : 내가 주장하고픈 가설

  • P-value

    • 귀무가설이 참이라고 가정할 때, 실험에서 관측된 결과와 같이 극단적인 결과가 나타날 확률
    • 우연히 발생될 확률이라고도 하며 -P값보다 작거나 P값보다 크면 귀무가설과 일치하지 않는다고 판단
  • 유의수준: 귀무가설을 기각하기 위한 기준으로 사용되는 확률값, 일반적으로 0.05, 0.1, 0.01 값이 사용됩니다.

  • 유의수준보다 작으면 귀무가설 기각, 크면 기각불가

2) 제 1종 오류 vs 제 2종 오류

  • 1종 오류
    • 귀무가설이 맞는데 기각한 경우, 잘못된 기각
  • 2종 오류
    • 귀무가설이 거짓인데 기각하지 못하는 경우, 잘못된 수용

0개의 댓글