확률밀도함수
데이터의 전반적인 모습을 파악하기 위해서는 데이터의 분포를 묘사하는 것이 필요함. 확률밀도함수는 랜덤 변수를 이용해 데이터의 분포를 수학적으로 묘사하는 함수.
수집한 데이터를 이용해 확률밀도함수를 추정할 수 있다면 이미 수집한 데이터의 분포에 대한 정보를 수학적으로 완벽하게 묘사할 수 있을 뿐만 아니라 다음에 생성될 데이터의 특성을 예측할 수도 있다.
누적분포함수
랜덤 변수 X의 누적분포함수(cdf, cumulative distribution function) 또는 확률분포함수(probability distribution function)또는 FX(x)는 랜 덤변수 X가 x보다 작은 값을 가질 확률 P{X≤x}로 정의한다.
즉,
FX(x)=P{X≤x}
누적분포함수 FX(x)는 다음과 같은 성질을 갖는다.
- 단조증가함수(monotonically non-decreasing function)
- limx→∞FX(x)=1
- limx→−∞FX(x)=0
확률밀도함수
연속 랜덤 변수 X의 확률밀도함수(pdf, probability density function) px(x)는 실수 구간 I=(−∞,x]에 대해서 다음을 만족하는 실수 함수로 정의한다.
∫−∞xpX(x)dxP{X≤x}=FX(x)
위 정의로부터 누적분포함수가 미분 가능하다면 확류밀도함수를 다음과 같이 표현할 수 있다.
pX(x)=dxdFX(x)
랜덤 변수 X가 임의의 실수 구간 (a,b]에 속할 확률은 확률밀도함수를 이용하면 다음과 같이 계산할 수 있다.
P{a<X≤b}=FX(X≤b)−FX(X≤a)=∫abpX(x)dx
확률질량함수(pmf, probability mass function)
이산 랜덤 변수 X에서는 확률밀도함수 대신 확률질량함수(pmf, probability mass function) 또는 확률을 사용한다.
wX(xi)=P{X=xi},i=1,...,n
디렉 델타(Dirac delta) 함수 δ(x)를 이용하면 확률질량함수를 확률밀도함수의 형태로 표시할 수 있다.
pX(x)=i=1∑nwX(xi)δ(x−xi)
✍ 디렉 델타 함수
디렉 델타 함수 δ(x−a)는 다음과 같은 두 가지 성질을 만족하는 함수로 정의된다.
δ(x−a)={∞0 if x=a if x=0
∫−∞∞δ(x−a)dx=1
즉, 디렉 델타 함수는 x=a에서만 무한대의 크기를 갖고, 그 외에는 모두 0의 값을 갖는다. 하지만 함수의 면적은 1로 고정되어 있다.
샘플링
반대로 어떤 확률분포를 가진 랜덤 변수에서 데이터를 생성하는 과정을 샘플링이라고 한다. 그리고 샘플링을 통해 얻어진 데이터를 샘플 또는 파티클(particle)이라고 한다. 샘플링을 통해 만들어진 샘플은 확률밀도함수를 추정하기 위해 수집한 데이터와는 값이 일치하지는 않겠지만, 데이터의 분포 특성은 동일하다.
그렇다면 어떤 방식으로 샘플링해야 그 샘플이 원래의 확률밀도함수가 기술하는 데이터와 동일한 분포를 가질 수 있을까? 확률밀도함수가 pX(x)인 랜덤 변수 X에서 추출된 샘플은 다음과 같이 표기한다.
x∼pX(x)
이제 확률밀도함수가 pX(x)인 랜덤변수 X에서 추출한 N개의 샘플을 {x(1),x(2),...x(N)}라고 하자
각 샘플이 독립적이고 공평하게 추출됐다면 각 샘플이 추출될 확률은 다음과 같이 동일하게 주어진다.
wX(x(i))=P{X=x(i)}=N1,i=1,...,N
이와 같이 각 샘플이 어떤 확률적 특성을 갖는 모집단에서 독립적이고 공평하게 추출된 경우 추출된 샘플을 독립동일분포(iid, independent and identically distributed, 독립적이고 동일한 분포를 갖는) 샘플이라고 말한다.
References
[1] 박성수. (2020). 수학으로 풀어보는 강화학습 원리와 알고리즘. 위키북스