Probability
확률 변수
- 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 사건을 수치적 값으로 표현하는 변수
- 확률 분포: 확률변수가 가질 수 있는 모든 값 집합 전체에 걸쳐 확률을 표현한 것
- 확률의 공리(명제)
- P(Ω)=1,Ω는 표본공간
- 사건 A∈Ω에 대해 0≤P(A)≤1
- 서로 배반인 사건 A와 B에 대해 P(A∪B)=P(A)+P(B)
Probability function
- 확률 질량 함수
- 이산 값을 가지는 정의역 상에서 정의된 확률 분포
- 확률 밀도 함수
- 연속 값을 가지는 정의역 상에서 정의된 확률 분포
확률 벡터
- 여러 개의 확률 변수를 묶어서 표현한 것
X=(X1,X2,X3,X4)
조건부 확률
- 조건부 확률
P(B∣A)=P(A)P(A∩B)
- 독립
P(x,y)=P(x∣y)P(y)=P(x)(y)
- 평균
μ=n1i=1∑nxi
- 분산
σ2=n1i=1∑n(xi−μ)2
- 확률의 곱 규칙(결합확률)
P(y,x)=P(x∣y)P(y)
- 확률의 합 규칙(주변확률)
P(x)=y∑P(y,x)=x∑P(x∣y)P(y)
Bayes Rule
확률을 바라보는 관점
- 빈도주의
- 사건의 발생 빈도에 기반한 객관적인 확률 해석
- 반복 가능한 실험이나 관찰을 통해 확률을 정의
- ex) 주사위를 무수히 많이 던졌을 때 1이 나온 경우가 전체의 1/6이다.
- 베이지안
- 주관적 믿음의 정보를 나타내는 확률 해석
- 사전 지식이나 믿음을 바탕으로 초기 확률을 설정하고 새로운 증거나 데이터를 통해 확률을 갱신한다
- ex) 주사위를 던졌을 때 1이 나온다는 주장의 신뢰도는 1/6이다.
- ex) 선수의 우승 확률을 계산할 때 몸값을 사전 지식으로 설정하고, 경기를 거쳐 확률을 갱신한다.
베이즈 정리
P(y,x)=P(x∣y)P(y)=P(x,y)=P(y∣x)P(x)
P(y∣x)=P(x)P(x∣y)P(y)
- 베이즈 정리의 해석
- 사후확률 = 우도 × 사전확률 ÷ Evidence
- 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법
- y: 어떤 사건이 발생했다는 주장
- x: 새로운 정보 evidence
- P(y): 주장의 신뢰도, Evidence 발생 이전의 확률
- P(y∣x): 새로운 정보 evidence를 받은 후 갱신된 신뢰도, 즉 사후확률
- 베이즈 정리의 재해석
- 데이터 x를 통해 사전 확률을 사후확률로 업데이트하는 것은 머신러닝 모델의 데이터 기반 학습 원리와 같다.
Maximum Likelihood Estimation
- 실험을 여러번 반복하여 데이터를 얻었다고 가정한다.
- 데이터 X가 주어졌을 때 X를 발생시켰을 가능성을 최대로 하는 매개변수 θ={q3}의 값 찾기
q3^=argmaxP(X∣q3) θ^=argmaxP(X∣θ)
- Likelihood: x를 알고 y를 추정해야할 때 P(x∣y)
- 각 개별 데이터는 모두 독립 시행이다.
P(X∣θ)=P(x1,x2,⋯,xn∣θ)=i=1∏nP(xi∣θ)
- Likelihood를 최대로 하는 θ는 데이터를 가장 잘 설명하는 매개변수이다.
- 양변에 단조증가함수인 log를 적용하면 계산이 효율적이다.
확률분포의 예
Gaussian Distribution
N(x;μ,σ2)=σ2π1exp(−21(σx−μ)2)
- 두 매개변수 μ,σ에 의해 개형이 결정된다.
- 평균을 기준으로 대칭이다.
- 가우시안 분포가 흔히 사용되는 이유
- 중심극한정리
- 무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과 관계 없이 정규분포에 가까워진다.
- 표본의 분포 파악이 가능해진다.
Bernoulli Distribution
Ber(x;p)=px(1−p)1−x
- 성공(x=1) 확률이 p이고 실패(x=0) 확률이 1−p인 분포
- 매개변수는 p
Binomial Distribution
B(x;m,p)=mCxpx(1−p)m−x
- 성공 확률이 p인 베르누이 실험을 m번 수행할 때 성공 횟수의 확률분포
- 매개변수는 p와 m