"프로그래머를 위한 확률과 통계" 책과 스터디 내용을 기반으로 작성하였습니다.
6.1 추정론
1) 기술 통계와 추론 통계
-
기술 통계
- 수집한 데이터를 대표하는 값들을 추출을 하면서 데이터를 묘사하는 방법
- 간결한 요약정보 제공
- 평균, 분산, 중앙값, 사분위수 등
-
추론 통계
- 표본 데이터로 모집단의 분포를 파악할 때 사용
- 전체 정보를 얻기가 어려운 경우 많이 활용
2) 모수적 vs 비모수적
- 모수적
- 분포에 대한 가정 존재 ex) 중심극한정리에 따른 표본의 분포는 정규분포
- 더 강한 가정이지만 적용 범위가 넓지 않습니다.
- 비모수적
- 분포에 대한 가정이 존재하지 않습니다.
- 적용 범위가 넓습니다.
3) 평가기준
-
제곱 오차
- 다루기 쉽고 가장 널리 사용
- 추정량의 경우 매번 바뀌는 표본 데이터의 변동이 문제가 있습니다.
-
*다목적 최적화
-
*최소분산불편 추정
- 가능한 추정량들 사이에서 분산이 가장 작고, 편향이 작은 것
-
*최대 우도 추정
- *일어날 가능성이 가장 크다.
- 분포가 주어졌을 때 주어진 데이터에 대해 가장 가능성이 높은 값을 찾습니다.
-
베이즈 추정
- *사전정보와 주어진 데이터를 모두 고려합니다.
ex) 환자가 특정질병에 걸렸을 확률을 추정하는 경우
- 사전에 알려진 발병률과 환자의 검사결과를 결합하여 질병에 걸렸을 확률을 추정합니다.
6.2 검정론
1) 귀무가설과 대립가설
- 유의수준보다 작으면 귀무가설 기각, 크면 기각불가
2) 제 1종 오류 vs 제 2종 오류
- 1종 오류
- 2종 오류
- 귀무가설이 거짓인데 기각하지 못하는 경우, 잘못된 수용