딥러닝을 위한 수학2(확률론)

홍성민·2023년 10월 16일

딥러닝 수학

딥러닝 & 컴퓨터비전

목록 보기

2/10

확률/통계의 기초

세상에는 무작위로 취급해야만 하는 사건(Event)가 존재한다. 사건(Event)란 확률론에서는 Random하게 발생한 일을 칭합니다.

기계학습에서 통계학을 이용하여 어떤 Data로 Model을 학습 시키면 좋을지 등의 문제를 객관적으로 판단할 수 있도록 하며 학습시킨 Model의 서은ㅇ에 대한 이론적 보증도 통계에 의해 가능합니다.

이러한 기계학습의 통계적 측면을 강조하는 것을 "통계적 기계학습"이라고 불리웁니다.

확률 용어

시행 : 어떤 일이 발생하기 위해 뭔가 해보는 것(단, 시행은 동일한 조건하에 시행됩니다.)
ex) 동전 던지기, 주사위 던지기
표본 공간 : 시행을 했을때 나타나는 모든 결과를 의미합니다.
ex) 주사위를 여러번 던질때 1~6까지의 눈이 나오는 것으로 1~6이 표본공간입니다.
사건 : 표본 공간속에서 사건이 일어나는 것을 말합니다.
ex) 주사위를 던질때 1이 나오는 것

즉, 사건이란 시행을 하는 것이 아닌, 시행을 했을때 나오는 결과를 의미합니다.
따라서 사건은 표본공간의 부분집합이 됩니다.

근원 사건 : 사건이 하나씩만 일어날 수 있는것
ex) 주사위의 경우 1, 2, 3, 4, 5, 6이 각각 나오는 것을 말합니다.

확률 기본

P(A)는 A가 일어날 사건이라고 표현하고 P는 Probability의 약자이다.

확률 종류

수학적 확률 : 수학적으로 어떤 이상적인/이론적인 확률(결과)를 의미하며 모든 가능한 결과에 대한 확률을 정확하게 계산할 수 있다.
ex) 동전을 던지면 앞/뒷면이 나올 확률은 각각 $\frac{1}{2}$ 이다.
통계적 확률 : 실제 생활에서 일어나는 확률이다. 즉, 어떤 일을 했을때 어떤 일이 일어날 확률을 의미한다. 실제 Data 및 표본을 사용하여 확률을 추정하고 계산한다.

P(A) = $\frac{n(A)}{n(S)}$ = $\frac{A사건이 일어날원소의 개수}{표본공간의 원소개수}$ 이다.

P(A)는 0<=P(A)<=1이며 기본적으로 0보다 크거나 같고 무조건 일어날 확률인 100%, 즉 1보다 작거나 같습니다.

확률 / 사건

확률

결합 확률 : 서로 배반되는 두 사상 A,B가 있을때 두 사상이 연속적으로 또는 동시에 일어나는 확률을 의미한다.
배반이란, 서로 동시에 일어날 수 없는 사건으로 교집합이 공집합이다.
조건부 확률 : 어떠한 상황이 주어졌을때 그 상황속에서 다른 상황이 일어날 확률을 의미한다.

사건

종속 사건 : 어떠한 사건이 일어났을 경우 다른 사건이 일어날 확률이 다를 때를 말한다.
조건부 확률은 이러한 종속 사건을 다루는 확률의 한 형태입니다.
독립 사건 : 한 사건의 발생이 다른 사건의 발생에 영향을 미치지 않는 사건을 말한다.
배반 사건 : 서로 동시에 일어날 수 없는 사건으로 교집합이 공집합이다.

Gaussian distribution

연속확률변수

확률 변수가 갖는 값들이 실수의 구간으로 표현될 때 이를 연속확률 변수 라고 한다.
어느 한 점에서의 확률은 의미가 없으며, 그 변수가 어떤 구간에 속할 확률을 구하게 된다.
연속확률변수가 이루는 분포를 연속확률 분포라고 한다.
연속확률분포에는 대표적으로 Gaussian distribution이 속한다.

확률밀도함수

확률분포 : 확률이 흩어져 퍼져 있는 것을 말한다. 그 결과는 확률을 표현한다.
흩어져 있는 것을 함수를 이용해 표현이 가능하므로 확률분포는 함수이다.

확률분포에 따라서 이산확률분포와 연속활률분포로 나뉘어진다.

이산확률분포 : 확률변수가 이산적인 값을 가질때 사용하고, 확률질량함수(PMF)를 사용하여 각 이산적인 값에 대한 확률을 나타낸다.
연속확률분포 : 확률변수가 연속적인 값(실수)을 가질때 사용된다. 확률밀도함수(PDF)를 사용하여 값의 범위에서 확률을 나타낸다.

연속확률변수의 분포를 나타내는 "연속확률분포"에서 확률을 구할 때는 항상 범위로 표현한다. 왜냐하면 실수값의 확률변수를 가지고 있기 때문에 어떤 한 점과 관련지어서 확률을 말할 수 없기 때문이다.

즉, 연속확률변수 X가 실수의 어떤 구간 [a,b]에 속할 확률을 그 구간과 어떤 함수 f(x)에 의한 면적으로 나타낼 수 있을때, 이 함수 f(x)를 연속확률변수 X의 "확률밀도함수(Probability Density Function, PDF)라 한다.

PDF의 성질은 다음과 같다.

Gaussian Distribution(Normal Distribution)

정규 분포(Normal Distribution)은 가우시안 분포(Gaussian Distribution)이라고도 불리운다.
실제로 많은 경우의 측정치가 근사적으로 정규 분포를 따르게 되며 통계적 추론에서 중요한 역할을 한다.

특징은 다음과 같다.

평균을 중심으로 대칭인 Bell-Shaped인 PDF의 그래프를 띤다.
모양과 위치는 평균과 표준편차에 의해 완전히 결정된다.
평균과 표준편차가 어떤 값을 갖더라도, 정규곡선과 X축 사이의 전체 면적은 1이다.
정규확률변수는 평균 주위의 값을 많이 취하며, 평균으로부터 좌우로 표준편차의 3배이상 떨어진 값은 거의 취하지 않는다.
정규분포곡선은 X축에 맞닿지 않으므로 정규확률변수가 취할 수 있는 값의 범위는 -∞<X<∞이다.

Multivariate Gaussian Normal Distribution

복수의 확률변수를 모형화 하는데 가장 많이 사용되는 분포이다.
D차원 다변수 정규 분포의 PDF는 평균 벡터 µ와 공분산 행렬(Σ)라는 모수를 갖는다.

공식은 다음과 같습니다.

Standard Normal Distribution

표준정규분포(Standard Normal Distribution)은 서로 다른 모수값(평균, 표준편차)을 가진 정규 분포를 가진 집단들을 서로 비교하기 위해 정규 분포를 표준화 하는 방법이다.

방법은 다음과 같다.

수집한 개별 데이터에서 그 데이터 집단 전체의 평균을 빼고 표준편차로 나누어 주면 된다.
이러한 식은 정규 분포의 평균을 0, 표준편차를 1이 되도록하게 된다.

식을 수식으로 표현하면 다음과 같다.
Z = $\frac{X - µ}{σ}$

이 식은 평균 값에서 표준편차의 몇 배 정도 떨어져 있는지 정도를 평가하는 식입니다.

이러한 표준정규분포에서는 표준편차의 ±1배의 범위 내에 전체 데이터가 68%가 들어있고 ±2는 95%, ±3은 99%가 들어가 있다고 한다.

Bayes Rule

베이즈 분류기라는 다른 ML 방법론들에 비해 간단한 Algorithm에도 불구하고 현실세계의 많은 문제를 효과적으로 풀 수 있다.
이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 과정을 보여준다.
새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법이다.

Bayes Rule을 사용하기 위해서는 다음과 같은 성질이 있어야한다.

$A_1$ ~ $A_K$ 는 서로소 이여야한다.(서로소 : 서로간의 교집합이 없다.)
$A_1$ ~ $A_K$ 를 모두 합집합 하였을때 전체집합 S가 되어야한다.

Bayes Rule의 공식은 다음과 같다.

P(H|E) = $\frac{P(H|E) P(H)}{P(E)}$

P(H|E)는 사후확률로 E(Evidence)를 관측하여 갱신한 후 내 주장의 신뢰도를 의미한다.
P(H)는 사전확률로 E(Evidence)를 관측하기 전의 내 주장의 신뢰도를 의미한다.

홍성민

할거면 똑바로 하고 아님 말자

이전 포스트

딥러닝을 위한 수학(선형대수학)

다음 포스트