전수조사와 표본조사
데이터를 얻는다는 것
"데이터(표본)을 얻는다는 것은 무엇인가?"
모집단분포: 모집단을 나타내는 분포, 전체 분포에서 일부를 추출한 것
확률분포와 실현값
데이터로부터 그 발생원의 확률분포 추정하기
"얻은 표본으로 모집단을 추정한다." = "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다."
모집단에 대해 추정한 결과의 일반화는 도메인 지식에 따라 달라진다.
추론통계를 직감적으로 이해하기
알고 싶은 값: 모집단평균(고정값) -> 표본에서 모집단평균 추정(확률적으로 변함)
-> 일반적으로 오차 발생: 표본오차
표본오차
표본오차는 확률적으로 바뀐다.
표본오차의 확률분포
표본평균도 확률 변수 -> 표본오차의 확률분포를 알면 어느 정도의 크기의 오차가, 어느 정도의 확률로 나타나는지를 알 수 있다.
신뢰구간이란?
오차 정량화
" %의 확률로 이 구간에 모집단 평균이 있다."
t분포와 95% 신뢰구간
가설검정
분석자가 세운 가설을 검증하기 위한 방법
p값을 계산하여 가설 지지 여부 판단
통계학에서 가설이란?
밝히고자 하는 가설: "신약에 효과가 있다."
-> 신약 투여 모집단A, 위약 투여 모집단B / "두 모집단의 평균값이 서로 다르다."
귀무가설: 밝히고자 하는 가설의 부정 명제(신약에 효과가 없다)
대립가설: 밝히고 싶은 가설(신약에 효과가 있다)
모집단과 표본의 관계
귀무가설이 옳다(모집단평균이 같다)고 해도 표본평균이 같지 않을 수 있다.(표본오차)
귀무가설이 옳다고 가정 -> 표본 추출 -> 표본평균의 차이를 히스토그램으로 -> t분포
p값
가설검정 흐름 정리
가설검정 계산
기각역과 p값
신뢰구간과 가설검정의 관계