확률 변수(Random Variable)
이라고 한다.정의역
이란, 확률 변수가 가질 수 있는 집합이다.
확률분포
란, 정의역 전체에 걸쳐 확률을 표현한 것이다.
확률질량함수
는 정의역이 이산값을 가지는 확률분포를 의미한다.
확률은 항상 0 이상이며, 정의역에 걸쳐 확률을 더하면 1이 돼야 한다.
확률밀도함수
는 정의역이 연속적인 값을 가지는 확률분포를 의미한다.
확률은 항상 0 이상이며, 정의역에 걸쳐 확률을 더하면 1이 돼야 한다.
확률 벡터
란, 확률변수가 vector인 경우를 의미한다.
1. 주머니에서 카드 1장을 꺼내, 해당하는 병에서 공을 꺼낸다
2. 꺼낸 카드와 공은 다시 제자리에 놓는다.
3. ,
4. 정의역 : {1, 2, 3}, {B, W}
위 규칙을 따라, 여러가지 확률을 계산해보자.
조건부 확률
이란, 사건 B가 이미 발생한 조건에서 사건 A가 발생할 확률을 의미한다.
곱 규칙
은 다음과 같다.
결합 확률
이란, 두 사건이 결합된 상태의 확률을 의미한다.
이제 하얀 공(W)이 뽑히 확률 P(W)을 생각하자.
위와 같은 계산식을 합 규칙이라고 한다.
합 규칙의 일반적인 형태 :
두 확률변수가 다음의 식을 만족하면, 둘은 독립
이라고 말한다.
위의 카드, 공 예제는 카드에 따라 공이 결정되기 때문에 서로 연관성이 있다는 것을 직관적으로 알 수 있다.
그렇기 때문에 두 확률변수는 서로 독립이 아니라는 사실도 알 수 있다.
일반적으로
와 가 같이 일어난 결합확률이나
와 가 같이 일어난 결합확률이 같으므로 다음과 같은 식이 성립된다.
위의 식을 정리하면, 베이즈 정리
가 된다.
베이즈 정리를 확률 실험에 적용하면, 다음 질문에 대한 합리적인 답을 구할 수 있다.
"하얀 공(W)이 나왔다는 사실만 알고 어느 병에서 나왔는지 모르는데, 어느 병인지 추정하라"
을 계산하여
가장 큰 값을 가진 병 번호를 선택하면 된다.
➡️
➡️
위의 식을 계산하여 3번 병일 확률이 가장 높다는 합리적인 답을 구할 수 있다.
보통 조건부 확률을
|의 오른쪽에 이미 알고 있는 사건을 쓰고,
|의 왼쪽에 추정해야 할 사건을 쓴다.
하지만 우도
는 위치가 뒤바뀐다.
|의 오른쪽에 추정해야 할 사건을 쓰고,
|의 왼쪽에 이미 알고 있는 사건을 쓴다.
우도 : P =
: 추정해야 할 사건
: 이미 알고 있는 사건
(=사후확률)을
직접 추정
하는 것은 아주 단순한 상황을 빼고는 불가능
하다.따라서
1. 사전확률 P(y)와
2. 우도 P(x|y)
를 구할 수 있다면, 베이즈 공식을 이용하여사후확률을 간접적으로 계산할 수 있다
.
그렇다면 우도(P(x|y))는 사후확률(P(y|x))보다 구하기 쉬운가?
➡️ 우도에서는 부류 y가 고정된 셈이어서 다른 부류의 샘플을 모두 배제한 채 y에 속하는 샘플만 가지고 확률 분포를 추정하면 되므로 추정이 훨씬 쉽다.
➡️ 다시 말해, 부류별로 독립적으로 확률을 추정할 수 있다.
무작위로 개의 Iris를 채집하였는데,
그 중 setosa, versicolor, virginica가 각각 , , 개라면
사전확률 P(y)는 다음과 같이 구할 수 있다.
우도 추정에 적용할 수 있는 여러 가지 확률밀도 추정(density estimation)방법이 있다.
이에 대한 자세한 내용은 Chapter 6.4(나중에 Link 달기) 참고
이제 다음의 그림처럼 일부 또는 전부가 가려진 상황에서
가려진 곳에 있는 매개변수를 추정하는, 더 복잡한 문제를 생각해 보자.
(a) : 카드를 담은 주머니가 가려져 있어 카드 1, 2, 3의 확률을 추정해야 한다.
세 확률을 더하면 1이 돼야 하므로,
카드 1, 2의 확률 , 만 추정하면 된다.
(b) : 3번 병에 들어있는 B의 확률 를 추정하면 된다.
W의 확률은 1-으로 구할 수 있다.
(c) : 전체가 가려져 있어 추정해야 하는 매개변수가 5개나 된다.
편의상 주머니와 관련된 확률은 , 병과 관련된 확률은 로 표기하여
매개변수의 집합은 = {, , , , }로 표기.
실험을 여러 번 반복하여 공의 색깔, 즉 데이터집합 를 다음과 같이 얻었다고 가정하자.
(b)의 경우, 3번 병만 가려진 상황에서 매개변수 를 추정하는 문제가 주어졌다.
이때 추정해야 하는 것은 B의 확률 이고, W는 로 구할 수 있으므로
매개변수는 2개가 아니라 1개이다.
따라서 문제를 다음과 같이 정의할 수 있다.
" 데이터 X가 주어졌을 때,
X를 발생시켰을 가능성을 최대로 하는 매개변수 의 값을 찾아라. "
이 식을 우도를 최대화하는 해를 구한다는 뜻에서
최대 우도 추정(MLE, Maximum Likelihood Estimation)이라고 한다.
최대 우도법을 일반화하면 다음과 같다.
수치 문제를 피하기 위해 log 표현으로 바꾸면 다음과 같다.
관찰 결과는 훈련집합 = {}이고,
추정해야 할 매개변수는 신경망의 가중치집합 이다.
➡️ 얼핏 이렇게 많은 매개변수의 최적 조합을 찾아내는 일이 불가능해 보이지만,
여러 기법이 협력하여, 그 중 목적함수와 최적화 알고리즘이 핵심 역할을 하여 복잡한 문제를 거뜬히 풀어낸다.
Variance
()는 평균을 기준으로 데이터가 얼마나 퍼져있는지를 측정하는 수치이다.
Variance ⬇️ : 평균에 모여있다
Variance ⬆️ : 골고루 분포한다
분모를 m-1로 나누는 이유는 자유도(주어진 데이터에서 계산 가능한 독립적인 정보의 개수)와 관련이 있다.
m-1로 나누면 자유도를 고려하여 모집단의 분산을 더 정확하게 추정할 수 있기 때문이다.
Standard Deviation
()은 Variance의 제곱근이다.
A = [M * N] Matrix라고 가정.
A의 Covariance()는 [N * N]이 된다. (Column 개수 * Column 개수)
example
Covariance는 symmetric Matrix이다.
확률분포
란, 확률 변수(random variable)의 가능한 모든 값들과 그 값들이 나타날 확률을 나타내는 함수.
기계 학습에서 널리 사용하는 확률분포
1, 가우시안 분포
2. 베르누이 분포
3. 이항 분포
이 분포들은 모양이 일정한데, 1개 또는 2개의 매개변수로 모양을 조절할 수 있다.
가우시안 분포(Gaussian Distribution) == 정규분포(Normal Distribution)
특징벡터가 1차원인 가우시안 분포
평균과 분산
을 나타내는 2개의 매개변수 와 로 규정하며,
와 같이 표기한다. 확률변수를 생략하여 로 표기하기도 한다.
; 앞에 ➡️ 확률변수
; 뒤에 ➡️ 매개변수
특징벡터가 다차원인 가우시안 분포
평균 벡터과 공분산 행렬
을 나타내는 2개의 매개변수 와 로 규정하며,
와 같이 표기한다. 확률변수를 생략하여 로 표기하기도 한다.
; 앞에 ➡️ 확률변수
; 뒤에 ➡️ 매개변수
확률변수 가 1(성공) 또는 0(실패)의 두 가지 값만 가질 수 있는 이진변수이고,
성공확률 : , 실패확률 : 인 분포를 베르누이 분포(Bernoulli Distribution)
라고 한다.
매개변수는 하나이다.
이항 분포(Binomial Distribution)
라고 한다.베르누이 분포는 =1일 때의 이항 분포로서,
베르누이 분포는 이항 분포의 특수한 형태임을 알 수 있다.
정보이론(Information Theory)에서는 메시지(=사건)의 정보량을 확률로 측정한다.
확률이 낮은 사건일수록 더 많은 정보를 전달한다.
ex. 윷놀이에서 "개가 나왔다." 보다는 "모가 나왔다"라는 메시지를 들으면 "놀라운 뉴스네."라는 반응을 보인다.
자기 정보(self-information)
란,
특정 사건 이 일어날 확률을 추정할 수 있다면, 그 특정 사건의 정보량을 의미한다.
확률변수를 라 하고 의 정의역을 {}라고 하자.
정보이론에서 사건 의 자기 정보량 를 측정해보자.
정보이론에서 자기 정보
정보량을 계산하기 위해 다음의 식을 이용한다.
예상 가능한 사건에 대한 정보는 자기 정보량이 작다.
bit(비트) : 확률이 1/2(==0.5)일 때, 1bit의 정보량을 갖는다.
nat(나츠) : 확률이 1/e(==0.3679)일 때, 1nat의 정보량을 갖는다.
엔트로피(Entropy)
란,
확률분포의 무질서도 또는 불확실성(Uncertainty)를 측정한다.
이산 확률분포의 엔트로피는 다음과 같이 정의한다.
연속 확률분포의 엔트로피는 다음과 같이 정의한다.
모든 사건이 동일한 확률을 가질 때, 엔트로피가 최대이다.
➡️ 예측하기 어려워서 더욱 무질서하고 불확실성이 크기 때문
엔트로피는 하나의 확률분포의 무질서 정도를 측정한다.
그런데 교차 엔트로피(Cross Entropy)
는 두 확률분포 간의 엔트로피를 측정한다.
Cross Entropy의 식을 통해서
KL divergence(다이버전스)를 유도
할 수 있다.
➡️ (와 의 교차 엔트로피) = (의 엔트로피) + (와 의 KL 다이버전스)
KL divergence는 두 확률분포가 서로 얼마나 다른지를 측정
한다.
➡️ 두 확률분포 사이의 거리를 계산할 때 주로 사용
한다.
(엄밀한 수학적 정의에 따르면 != 이므로 거리가 아니지만)