정보를 얻고자 하는 전체 집합
모집단으로부터 추출된 모집단의 부분 집합.
모집단의 특성
해당 모집단에서 추출한 표본에서의 특성.
모수가 모집단의 분포 특성을 설명하는 것처럼, 통계량이란 표본의 특성을 설명하는 값이다. 통계량에는 표본평균, 표본분산, 표본표준편차,표본비율, 표본상관관계 등이 있다.
경험적 확률과 수학적 확률 사이의 관계를 나타내는 법칙으로, 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워짐을 의미한다. 따라서 취합하는 표본의 수가 많을수록 통계적 정확도는 올라가게 된다.
중심극한정리와의 차이는 "정규 분포"이다. 큰 수의 법칙 어디에도 "정규분포"라는 내용이 나오지 않는다.
우리말로 중심극한정리(Central Limit Theorem)이다. 이를 잘 이해하기 위해서는 정규분포를 알아야 한다.
👀 정규분포:
2개의 매개 변수(평균, 표준편차)에 대해 모양이 결정되고, 이때의 분포를 로 표기한다.
특히, 평균이 0이고 표준편차가 1인 정규분포 을 표준정규분포라고 한다.
👉 정규분포를 따르는 확률밀도함수:
👀 중심극한 정리:
평군이 이고, 분산이 인 임의의 확률분포를 가지는 모집단으로부터 크기 인 확률표본을 취했을 때 표본평균()은 표본의 크기 이 충분히 클 때 대략 정규분포을 따른다.
중심극한정리가 강력한 이유는 모집단의 형태가 어떻든지 간에 상관없이 표본 평균의 분포는 정규분포를 따르게 된다는 점에 있다.
이때 n은 보통 30이상일 때 정규분포를 따른다고 가정할 수 있다고 한다.
참고사이트:https://data101.oopy.io/big-enough-sample-30
모수가 실제로 포함될 것으로 예측되는 범위이다. 집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용된다.
Bootstrap은 데이터 내에서 반복적으로 샘플을 사용하는 resampling방법 중 하나이다.
Bootstrap sampling을 사용하면 애초에 한 개 밖에 없었던 sample data set을 n개의 sample data set을 가지고 있는 것과 같은 효과를 누릴 수 있다. 이를 통하여 data의 variance(분산)를 상당히 잘 근사할 수 있는 결과를 볼 수 있다.
오늘은 통계에서 정규성, 정규분포, 표본 등 간단한 기초에 대해서 배웠다. 그나마 지난 학기에 들었던 실험 통계학 덕분에 이해를 하는데 큰 어려움은 없었다. 다만 이게 어디서 본건데,,,하면서 아른거리는 기억이 상당히 빡쳤다. 아 이거 알 거 같은데, 배웠는데 하면서 그때 더 열심히 할 걸 후회했다.
부트캠프 2주차에 접어들었는데 뭔가 마음만 급한 느낌이 있다. 조금 조바심을 내려놓고 전에 공부했던걸 앞으로 공부해 나아가면서 다시 안뒤져봐도 되게 복습도 해야겠다.