


표준 정규 분포 (standard normal distribution)
확률 변수 X~N(μ, σ^2) 정규분포를 따르고, 확률 변수 Z = (X-μ)/σ 할 때 확률 변수 Z~N(0,1)



지수분포(exponential distribution) : 단위 시간당 발생할 확률 λ인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할때까지 걸린 시간 확률 변수 X는 지수분포임.
예시) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포임
지수분포의 PDF


지수분포의 평균 : E[X] = 1/λ
분산 : Var[X] = 1/λ²

어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
지수분포의 무기억성(property of memorylessness)은 중요한 특성 중 하나로, 이는 특정 시점까지 경과한 시간이 이후에 발생할 사건의 확률에 영향을 주지 않는다는 의미입니다. 즉, 사건이 발생하는 데 걸리는 시간이 이미 얼마나 경과했는지와 무관하게 항상 동일한 확률을 갖는다는 뜻입니다.


예시)
예를 들어, 특정 시스템의 고장이 지수분포를 따른다고 가정할 때, 이 시스템이 지난 10시간 동안 고장 나지 않았다고 해서 앞으로 고장이 날 때까지 걸리는 시간의 분포가 변하지 않는다는 뜻입니다. 다시 말해, 이미 10시간이 경과한 후에도 앞으로 5시간 동안 고장 나지 않을 확률은 처음부터 5시간 동안 고장 나지 않을 확률과 동일합니다.
이 특성은 실용적인 응용에서 매우 유용합니다. 예를 들어, 고객 도착 시간, 장비 고장 간격, 통신 시스템의 패킷 도착 시간 등을 모델링할 때 지수분포의 무기억성 특성이 유용하게 사용됩니다.

| 구 분 | 모집단 | 표본 |
|---|---|---|
| 평균 | μ | X ̄ |
| 분산 | σ² | s² |
표본추출(Sampling) : 모집단으로부터 표본을 추출하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함
모집단에서 표본을 추출하는 방법에는 여러가지가 있음
1) Sampling 기법을 통하여 해결
2) 모델을 통한 성능 개선 (ex. Cost-sensitive learning)
관심의 대상이 아주 낮은 비율일 경우
Over Sampling


표본분포 (Sampling distribution) : 통계량들이 이룬느 분포를 표본분포라고 함
표본 평균 (Sample mean)



카이제곱 분포 (Chai-square distribution) : 확률 변수 Z1, Z2, ..., Zn 가 표준정규분포를 따른다면, 확률변수 Z는 Z1 + Z2 + ... Zn
Z ~ X²(n), Z 가 카이제곱 분포를 따를 때,

E[X] = v, Var[X] = 2v
자유도 (degree of freedom) : 표본수 - 제약조건의 수 또는 표본수 - 추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용
카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라짐, 자유도가 커질수록 분포가 좌우 대칭 형태로 됨
카이제곱 분 포는 자유도가 커지면서 표준정규 분포에 근사하며, v≥30 이면, 확률을 근사적으로 정규분포로 구할 수 있음
Tableau이후 작성