개별적이고 분리된 값들을 가진다.
예: 동전 던지기의 결과(앞면/뒷면), 주사위 던지기의 결과(1~6의 정수)
표현: 확률은 특정 값에 대해 직접적으로 정의된다. (주사위: 1/6)
확률질량함수를 사용하여 각 값에 대한 확률을 나타낸다.
연속적인 값으로, 구간내 모든 값들을 취할 수 있다.
예: 사람의 키, 무게, 시간 등
표현: 확률은 값의 범위에 대해 정의되며, 특정 값의 확률은 0이다.
확률밀도함수(PDF)를 사용하여 특정 구간에 대한 확률은 계산한다.
확률분포의 뾰족한 정도를 나타내는 측도
높은 첨도: 중앙 부분에 데이터가 많이 집중되어 있으므로 이상치가 많음을 나타낼 수 있다.
낮은 첨도: 데이터가 중앙에 덜 집중되어 있다.
확률분포의 비대칭 정도를 나타내는 측도
2개의 결과만을 갖는다. (성공/실패)
각각의확률은 p(성공 확률)과 1-p(실패 확률) 표현된다.
예: 동전 던지기, 시험의 합격/불합격
N번의 베르누이 시행에서 k번 성공할 확률분포이다.
예: 동전을 10번 던져서 앞면이 나오는 횟수
성공확률 p인 베르누이 분포에서 처음으로 성공할 때까지 k번 실패할 확률이다.
예: 동전을 던져 처음으로 앞면이 나오기까지 던진 횟수
N번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 분포
예: 주사위를 10번 던져 각 면이 나오는 횟수
단위 시간 또는 단위 공간 내 발생할 수 있는 사건의 발생 횟수에 따른 확률 분포
예: 한 시간 동안 고객이 도착하는 횟수
구간 내의 모든 값에 대한 확률 밀도가 동일하다.
예: 0과 1 사이의 숫자를 무작위로 선택할 때, 어떤 숫자가 선택될 확률
종 모양의 대칭적인 분포 형태를 가지며, 평균(μ)과 표준편차(σ)에 의해 모양이 결정된다. 많은 자연현상과 사회현상이 정규분포를 따른다.
예: 사람들의 키나 IQ 점수의 분포
표준정규분포: 평균이 0이고 표준편차가 1인 정규분포
어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
예: 특정 상점에 고객이 도착하는 시간 간격
정규분포와 유사하지만, 꼬리 부분이 더 두껍고 긴 분포이다. 작은 표본 크기에서 평균을 추정할 때 유용하다.
표본이 30개 이상이면 표준정규분포와 거의 같은 분포가 된다.
예: 검정통계량으로 활용
독립적인 정규분포를 따르는 변수들의 제곱합으로 구성된다. 주로 적합도 검정이나 독립성 검정에 사용된다.
모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
동질성 검정 통계량에 활용
예: 관찰된 빈도수가 기대 빈도수와 얼마나 다른지를 검정할 때 사용
두 개의 서로 다른 카이제곱 분포의 비율로 정의된다. 주로 두 집단의 분산이 서로 다른지를 비교하는데 사용된다.
분산의 동일성 검정에 사용되는 검정 통계량
예: 두 집단 간의 분산을 비교하는 분산 분석(ANOVA)
정규분포와의 유사점
정규분포와의 차이점
표본 크기의 영향
표본 크기가 작을때(30개 미만), 정규분포를 사용하는 것보다 t-분포를 사용하는 것이 더 정확하다. 이는 작은 표본 크기에서 평균의 추정이 더 불확실하기 때문이다.
표본 크기가 커질 때의 변화
표본 크기가 커질수록(30개 이상), t-분포는 정규분포에 점점 가까워진다. 즉, 큰 표본 크기에서는 t-분포와 정규분포가 거의 비슷해진다.
정리하자면, t-분포는 작은 표본 크기에서 발생할 수 있는 추가적인 불확실성을 고려하여 정규분포를 수정한 것이다. 따라서 작은 표본 크기에서 평균의 추정치에 대한 더 정확한 추론을 제공하며, 표본의 크기가 커질수록 정규분포와 유사해진다.