정보를 얻고자 하는 전체 집합
모집단으로부터 추출된 모집단의 부분 집합.
모집단의 특성
해당 모집단에서 추출한 표본에서의 특성.
모수가 모집단의 분포 특성을 설명하는 것처럼, 통계량이란 표본의 특성을 설명하는 값이다. 통계량에는 표본평균
, 표본분산
, 표본표준편차
,표본비율
, 표본상관관계
등이 있다.
경험적 확률과 수학적 확률 사이의 관계를 나타내는 법칙으로, 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워짐을 의미한다. 따라서 취합하는 표본의 수가 많을수록 통계적 정확도는 올라가게 된다.
중심극한정리와의 차이는 "정규 분포"이다. 큰 수의 법칙 어디에도 "정규분포"라는 내용이 나오지 않는다.
우리말로 중심극한정리(Central Limit Theorem)이다. 이를 잘 이해하기 위해서는 정규분포를 알아야 한다.
👀 정규분포:
2개의 매개 변수(평균, 표준편차)에 대해 모양이 결정되고, 이때의 분포를 로 표기한다.
특히, 평균이 0이고 표준편차가 1인 정규분포 을 표준정규분포라고 한다.
👉 정규분포를 따르는 확률밀도함수:
👀 중심극한 정리:
평군이 이고, 분산이 인 임의의 확률분포를 가지는 모집단으로부터 크기 인 확률표본을 취했을 때 표본평균()은 표본의 크기 이 충분히 클 때 대략 정규분포을 따른다.
중심극한정리가 강력한 이유는 모집단의 형태가 어떻든지 간에 상관없이 표본 평균의 분포는 정규분포를 따르게 된다는 점에 있다.
이때 n은 보통 30이상일 때 정규분포를 따른다고 가정할 수 있다고 한다.
참고사이트:https://data101.oopy.io/big-enough-sample-30
모수가 실제로 포함될 것으로 예측되는 범위이다. 집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용된다.
Bootstrap
은 데이터 내에서 반복적으로 샘플을 사용하는 resampling방법 중 하나이다.
Bootstrap sampling
을 사용하면 애초에 한 개 밖에 없었던 sample data set을 n개의 sample data set을 가지고 있는 것과 같은 효과를 누릴 수 있다. 이를 통하여 data의 variance(분산)를 상당히 잘 근사할 수 있는 결과를 볼 수 있다.
오늘은 통계에서 정규성, 정규분포, 표본 등 간단한 기초에 대해서 배웠다. 그나마 지난 학기에 들었던 실험 통계학 덕분에 이해를 하는데 큰 어려움은 없었다. 다만 이게 어디서 본건데,,,하면서 아른거리는 기억이 상당히 빡쳤다. 아 이거 알 거 같은데, 배웠는데 하면서 그때 더 열심히 할 걸 후회했다.
부트캠프 2주차에 접어들었는데 뭔가 마음만 급한 느낌이 있다. 조금 조바심을 내려놓고 전에 공부했던걸 앞으로 공부해 나아가면서 다시 안뒤져봐도 되게 복습도 해야겠다.