연속확률분포
- 확률변수 X가 취할 수 있는 값이 무한한 경우 이를 연속확률변수라고 한다.
- 특정한 값 x에 대한 정확한 확률 값을 표현 할 수 없다.
-> 따라서 특정 구간 a <= x <= b에 대한 확률로 표현
확률밀도함수
- 연속확률변수가 주어진 구간내에 포함될 확률을 출력하는 함수
연속확률분포의 성질
- 확률변수 X가 어떤 구간에 속할 확률은 0과 1사이이다.
- 확률변수 X가 값을 가질 수 있는 모든 구간의 확률을 합치면 1이다.
-> 각 구간은 배반(겹치는 것이 없을 때) 관계일 때 이것이 성립한다.
P(a <= X <= b) = a부터 b까지의 면적
- f(x)는 확률을 의미하고 dx는 구간길이를 의미한다.
- a부터 b까지의 구간에 대해 확률 X 구간길이의 값을 모두 더한 값이다.
- 연속 확률 변수는 면적으로 계산되며 한 점에 대한 확률은 0으로 간주
P(a < X < b) = P(a <= X <= b)
균등 분포
- 특정 구간 내 값들이 나타날 가능성이 균등하다.(모든 확률 변수에 대해 일정한 확률을 가지는 확률분포)
- X가 균들 분포를 따를 때 X~U(a,b)로 표현한다.
- X는 a에서 b사이에서 일정한 값을 취하고 P(a <= X <= b) = 1이다.
- 균등 분포를 따르는 확률 변수 X의 확률밀도함수는 다음과 같다.
f(x) = {1/(b-a) (a<=X<=b), 0(otherwise)}
균등 분포 예시(스팸 메일)
- 매일 오후 3시부터 4시 사이에 하나의 스팸 메일이 도착한다.
- 해당 시간 안에 특정 시간에 스팸 메일이 도착할 확률이 동일하다고 하자
- 이때 스팸 메일이 도착하는 시각을 확률변수 X라고 해보자
- 확률 분포 함수는 어떻게 그릴까?
- 균등 분포는 직사각형으로 그린다.
- 가로축의 단위를 분으로 한다면 가로 길이가 60이 된다.
- f(x)는 1/60으로 고정된다.

ex1) 확률 변수 X가 구간 [10, 20] 에서 균등한 분포를 가질 때 p(15 <= X <= 17)은?
(1/(20-10))2 = 1/5
이산 균등분포
- 주사위를 한번 던지는 시행에서 주사위의 눈금 값을 확률 변수 X라고 할 때 이는 균등분포를 띈다.
정규 분포
- 정규분포는 밥그릇과 같은 모양을 보인다.
- 현실의 많은 데이터의 상당수가 정규 분포로 매우 가깝게 표현
- 현실 세계 수집된 데이터의 분포를 근사할 때 자주 사용
정규 분포의 특징
-
정규분포는 평균과 표준편차로 결정된다.
-
확률 밀도 함수는 평균을 중심으로 좌우 대칭인 종 모양을 형성한다.
-
관측 값의 약 98%가 ±2σ 범위 안에 존재
-
평균에 따라 정규분포는 좌우로 평행 이동한다.
-
분산이 클수록 정규분포가 옆으로 넓게 퍼진다.(작을수록 가팔라짐 -> 분산이 크면 평균에서 멀어진 값들이 많아짐)
정규 분포의 확률밀도함수
- 공학 분야에서는 가우시안 분포로 부르기도 한다.
- 확률 변수 X의 확률밀도 함수가 다음과 같을 때 X가 정규분포를 따른다고 한다.
- 평균 μ과 분산 σ^2에 의해 분포의 모양이 결정된다. (−∞ < x < ∞; σ > 0)

표준 정규 분포
- 표준 정규 분포는 평균이 0 표준편차가 1인 정규분포를 의미한다.
- 확률을 계산하기 위해 정규 분포 함수를 직접 적분하는 것을 어렵다
- 실제 정규분포를 표준 정규분포로 변환한 뒤에 확률 계산
지수 분포
- 특정 시점에서 어떤 사건이 일어날 때까지 걸리는 시간을 측정할 때 사용
- 웹 사이트에 평균적으로 10분에 한 명씩 방문자가 접속한다.
ex1) 한명의 방문자가 접속한 뒤에 그 다음 방문자가 올 때까지 걸리는 시간의 확률은?
- 포아송 분포는 발생 횟수에 대한 확률 구할 때 사용 (이산확률 분포)
- 지수 분포는 대기 시간에 대한 확률을 구할 때 사용 (연속확률 분포)
- 지수 분포의 확률 밀도 함수는 다음과 같음
- λ: 단위 시간 동안 평균 사건 발생 횟수
f(x) = λe^(−λx), x ≥ 0
지수 분포 예시(해킹)
ex1) 운영중인 서버에는 하루 평균 4건의 해킹이 시도 된다. 첫번째 해킹 시도가 3시간 안에 발생할 확률은?
하루 평균 4건의 해킹이 시도 되므로 한 시간에 4/24 = 1/6건의 해킹이 시도 된다고 하자
λ = 1/6 이고 확률 밀도 함수는
f(t)=(1/6)e^(-1/6)t (t>=0) 가 된다.
0~3 까지 f(t)를 적분하면 0.3935 가 나온다.
지수 분포의 특징 - 무기억성
- 특정 시점에서부터 소요되는 시간은 과거로부터 영향을 받지 않는다.(무기억성)
- 예를 들어 서버가 해킹당하기까지 걸리는 시간을 지수 분포로 근사한 경우 서버를 3년간 운영한 뒤 해킹당하기 까지 걸리는 시간은 처음 서버 운영한 뒤 해킹 당하기까지 걸리는 시간과 같다.=> 지나치게 단순하다는 한계가 있다.
이미지 데이터에 대한 확률 분포
- 생성 모델 : 이미지 분포를 근사해 있을 법한 이미지를 생성 가능
- 사람의 얼굴에는 통계적 평균치 존재