교과서적 정의 : 자연 현상이나 사회 현상 중에서 확률밀도함수의 그래프가 어떤 값을 중심으로 대칭적으로 분포하며 중심에서 멀어질 수록 도수가 작아지는 종 모양의 곡선에 가깝게 나타나는 경우
모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ 이고 표준편차가 인 정규분포」에 근접한다.
모집단에서 표본크기가 n인(예,30개) 표본을 여러번 반복해서(예,200번) 추출했을 때, 각각의 표본 평균들이 이루는 분포
중심극한정리는 표본의 크기가 커질수록 (일반적으로 30 이상), 표본 평균들이 이루는 분포가 「모집단의 평균 μ, 표준편차가 인 정규분포」에 가까워 진다는 정리
모집단
모수
전체 집단의 모든 데이터를 알지 못하더라도 수학적으로 해당 분포를 기술할 수 있는 특성치를 알 수 있다면, 비슷하게 모집단의 특성을 통계적으로 확인할 수 있다
특성치 = 모수
평균 / 분산 / 표준편차 / 분위수(중위값, 1분위수 등) / 모비율
표본 : 모집단의 부분 집합
표본을 추출하는 것은 현실적으로 모집단 전체를 검사할 수 없기 때문에 표본 추출을 진행
따라서 표본은 모수를 추정하기 위해 얻는 값
만일 표본을 랜덤하게 뽑는다면 추출된 표본은 매번 다른 값들로 구성될 가능성이 높음
즉, 표본은 매번 추출할 때 마다 값이 달라지는 특성을 가짐
추출된 표본들을 통계적으로 기술하기 위해 통계적 특징을 나태나는 표본 통계량을 계산할 수 있음
표본 통계량 = 표본 평균 / 표본 표준편차 / 표본 비율
표준 오차
표본 통계량의 표준 편차
매번 추출될 때 마다 값이 바뀌는 특성 때문에 표본 통계량은 매번 변동(오차)가 발생함
표준 오차와 표준 편차는 다른 값
표준 오차 = 평균의 추정치에 대한 불확실도를 수치화 한 값
표준 편차 = 모집단의 분포가 얼마나 퍼져있는가
연구를 통해 새로운 사실을 발견했다는 사실을 입증할 경우 사용되는 가설이다.
귀무가설 = 새로운 사실이 없다.
대립가설 = 새로운 사실이 있다.
Ex) 하체 운동 여부가 관절염 발생 증가에 영향을 미치는지 연구할 경우
귀무가설 : 하체 운동은 관절염 발생에 영향을 미치지 않는다.
대립가설 : 하체 운동은 관절염 발생에 영향을 미친다.
Ex) 제약회사에서 개발한 신약의 효과를 검정할 경우
귀무가설 : 새로 개발한 신약은 효과가 없다
대립가설 : 새로 개발한 신약은 효과가 있다.
참이 아님을 증명하는 것이 참이라고 증명하는 것 보다 쉽기 때문
귀무가설 1개를 검정하는 것이 대립가설 하나하나 모두 검증하는 것 보다 쉽기 때문
모수에 대해서 알 수 없으며, 연구에는 주관이 개입되면 안되기 때문
귀무가설을 기각했다고 해서 대립가설을 증명한 것이 아니라는 것
1개의 귀무가설에 대한 대립가설은 여러개가 나올 수 있기 때문에 1개의 귀무가설을 기각했다고 해서 여러개의 대립가설이 모두 맞다는 것은 아니라는 뜻
모집단에서 표본을 추출하고 표본으로 부터 얻은 정보를 바탕으로 귀무가설이 참인지, 거짓인지 판단
표본을 추출할 때마다 값이 매번 통계치가 달라지기 때문에 항상 오류의 가능성이 존재
귀무가설이 참인지 거짓인지 판단하기 위해 귀무가설이 참이라고 가정했을 때, 표본으로 부터 얻어지는 통계치가 관측될 확률을 계산
여기서 관측될 확률값 = p값
p값이 낮다는 것은 귀무가설이 참이라는 가정하에서 표본을 추출했을 때, 표본 평균이 관측될 확률이 낮다는 것
즉, p값이 매우 낮으면 표본 통계량은 우연히 나타나기 어려운 케이스이기 때문에, 귀무가설을 채택하지 않고(=기각하고) 대립가설을 채택