평균(mean), 중앙값(median), 최빈값(mode)
표준편차(standard deviation), 사분위(quantile)
표본에서 얻은 어떤 특성의 통계치를 기초로 추출된 표본에 따른 오차를 고려하면서
모집단의 모수치를 확률적으로 추정하는 통계적 방법
추정(estimation) : 표본을 통해 모집단의 특성을 추측하는 것
가설검정(testing hypothesis) : 가설이 통계적으로 유의한 지 테스트하는 것
관측치 =
평균값 =
분산 =
표준편차 =
관측치 =
평균값 =
분산 =
표준편차 =
분산이란 데이터가 평균값을 중심으로 퍼져 있는 평균 거리
관측값에서 평균값을 뺀 것의 제곱 전체 갯수()
모분산의 식
표본분산의 식
주어진 조건 하에서 통계적 제한을 받지 않고 자유롭게 변화할 수 있는 원소의 수이며
df라고 표기한다.
표본수가 인 표본에서 표본평균 가 정해져 있다면 표본값 중 '자유롭게 변할 수 있는' 것은 개의 표본이다.
표본 분산의 식에서 자유도()로 나누어주는 이유
[참고]https://bkshin.tistory.com/entry/%E3%85%87
[참고 유튜브]
https://youtu.be/faVIwae-wkw
https://www.youtube.com/watch?v=frz-BE3a6H0&t=148s
자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근
표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다
표준편차는 분산에 제곱근 한 것이다.
분산을 구할 때 음수를 없애기 위해 제곱을 해주었기 때문에
원래 단위로 되돌리기 위함이다.
모집단의 표준편차 식
표본의 표준편차 식
가우시안 분포(Gaussian Distribution)이라고도 함
종 모양(bell shape)
[이미지출처]https://zetawiki.com/wiki/정규분포곡선
평균을 중심으로 좌우가 대칭인 분포
정규분포의 양 끝은 영원이 0에 닿지 않음
정규분포는 평균과 표준편차에 대해 모양이 결정됨
이때에 분포를 로 표기함
정규분포 곡선 아래의 면적은 확률을 의미하고 곡선 아래의 면적의 합은 1
평균이 0이고, 표준편차가 1인 정규분포 =
무한대 가지의 정규분포 곡선을 적분하는 번거로움을 덜기 위해