Probability가 무엇인지 알아보기 위해 예제를 준비했다.
아이들이 축구를 하기 위해 축구공을 뽑는 사건이 주어진다고 하자.
이때, 축구공을 뽑아 축구를 할 수 있는 확률은 얼마일까?

전체 sample space가 모든 경우의 수로 주어지고, event가 우리가 알고자 하는 특정한 사건이라면 다음과 같이 확률(Probability)을 정의할 수 있다

이를 벤다이어 그램으로 표현해보자.
전체 경우의 수를 나타내는 sample space는 모든 공간을 차지한다.
특정 사건을 나타내는 축구공을 뽑는 경우의 수 event는 sample space의 일부를 차지한다.

이번에는 flip coin 예제를 다뤄보자.
H와 T 두 가지 상황으로 experiment가 가능하며 우리가 찾고 싶은 확률은 heads만 나올 확률이다.

두 번의 시행으로 를 찾겠다면 모든 경우의 수를 고려해보는 것으로부터 출발하자.
첫 번째 시행에서는 H와 T이, 두 번째 시행헤서는 각각의 H와 T가 만들어진다.

이러한 sample space에서 우리가 찾고 싶은 event는 에 해당한다.

세 번의 시행으로 를 찾는 과정 또한 모든 경우의 수를 구하는 것부터 시작이다.
첫 번째 시행과 두 번째 시행, 세 번째 시행 단계에서 모두 각각의 H와 T가 만들어진다.

이러한 sample space에서 우리가 찾고 싶은 event는 다.

이번에는 dice 하나를 가지고 6이 나올 확률을 추정해보자.
주사위의 눈금 개수가 6개이므로 한 번의 시행에서 눈금이 나올 수 있는 모든 sample space의 경우의 수는 6개다.

주사위 두 개를 이용하여 을 계산한다면 관측될 수 있는 모든 경우의 수가 36개로 세어진다.

강의에서 제공된 Interative Tool을 이용해 100번의 시행으로 분포 함수를 그려보자.


확률의 Complement rule, 여사건에 대하여 알아보자.
아이들이 축구공을 고를 확률이 30%였다면, 축구공을 고르지 못할 확률은 얼마일까?

과 의 합은 1이다.



수식으로 표현하면 로 정리할 수 있다.

이를 벤다이어 그램으로 표현한다면 축구공을 고른 event의 여백이 바로 Not soccer zone이다.



확률의 disjoint event, 배반 사건에 대해 알아보자.
어떤 학교에서 아이들이 단 하나의 sport만을 선택하여야 한다면, 전체 학생들 중 soccer를 하거나 basketball을 선택할 확률은 얼마일까?

10명의 아이들이 있으므로 전체 sample space에서의 경우의 수는 10개다.
이 중 soccer 3명, basketball 4명이라면 우리가 찾고자 하는 event 은 이다.

첫 번째 예제인 disjoint event는 합집합 표현이 가능하다.
합집합의 확률은 모든 사건의 합의 확률이라 할 수 있다.

이번에는 dice example을 통해 disjoint event를 다뤄보자.
사건 가 짝수가 나올 event, 사건 가 5가 나올 event라고 하자.

두 사건을 단순 합하여 를 찾는다면









확률의 joint event, 결합 확률에 대해 알아보자.
어떤 학교에서 soccer와 basketball 중 개수에 상관 없이 아이들이 원하는 대로 sports를 선택할 수 있게 해주었다고 하자.

우리가 찾고자 하는 event는 이며 몇 명의 친구들이 두 sports를 동시에 골랐는지는 아직 알 수 없다.
이러면 우리는 정보가 부족하여 확률을 구할 수 없다.

두 sports를 모두 고른 학생이 아래와 같이 한 명일 수도 있고 세 명일 수도 있다.


만일 두 sports를 고른 학생들이 10명 중 3명이라고 하자.

즉, 10명 중 3명이 중복된 선택을 했다고 볼 수 있다.

우리는 이러한 사건을 inclusion exclusion problem으로 치환하여 볼 수도 있다.

경우의 수가 아닌 확률로 주어졌을 때에도 마찬가지다.

정답은 를 계산하여 구할 수 있다.

벤다이어 그램으로 표현한다면 Disjoint와 Joint의 차이를 확연히 구별할 수 있다.



아까와 다르게 의 사건을 합쳐보니 double count된 경우의 수가 존재한다.

계산 과정은 아래와 같다.
은 과 에서 을 빼주는 과정으로 해결 가능하다.

확률의 Independence, 독립 사건에 대해 알아보자.
예를 들어 전체 학생이 100명인 학교에서 50명의 학생이 축구를 했고, 한 반에 50명씩 2반이 있는 상황이 주어진다고 가정하자.

유추해보건대, 두 반의 사람 명수가 똑같다면 50명 중 절반인 25명씩 찢어져서 나뉘었을 것이라 생각할 수 있다.


전체 확률인 100명중 40명이 축구를 했다는 정보와 100명 중 30명이 1반이라는 정보는 사실 서로 독립된 사건이다.

두 확률의 교차점을 그림으로 나타낸 결과는 아래와 같다.

두 동전을 던졌을 때 모두 Head가 나올 확률은 얼마인가?

만약 5번 던졌을 때 모두 Head가 나올 확률은?



만약 10번 던졌을 때 모두 6이 나올 확률은?

사실 2명의 친구들이 만났을 때 둘 다 생일이 똑같을 확률은 그리 크지 않을 것이다.
예를 들어, 30명의 친구들이 party에 모인다고 하자.
여기에 두 사람의 생일이 똑같을 확률은 얼마일 것으로 추정하는가?

정답은 random하게 뽑힌 2명의 생일은 같을 확률이 높다.

사람들의 생일이 모두 중복되지 않는다고 가정하며 독립 사건을 다뤄보자.
첫 번째 사람은 365일 중에 365일 모두 생일일 수 있으므로 확률을 갖는다.
두 번째 사람은 365일 중에 364일 모두 생일일 수 있으므로 확률을 갖는다.
세 번째 사람은 365일 중에 363일 모두 생일일 수 있으므로 확률을 갖는다.
이런 식으로 모든 사건을 곱하면, 9명의 사람이 있을 때 모든 사람의 생일이 다 다를 확률이 0.9로 계산되어 나온다.
다시 말해, 0.1의 확률로 두 사람의 생일이 겹칠 수 있는 것이다!

모인 사람 수를 늘려가며 확률을 계산해보면 아래와 같은 결과를 얻을 수 있다.
재미있는 점은 23명의 사람의 모였을 때, 0.5의 확률로(반반) 두 사람의 생일이 같을 수 있다는 점이다.

동전을 두 번 던져 두 번 모두 Head가 나올 확률은 얼마였는가?

만약, 첫 번째 시행의 결과가 Head임을 알고 난 후에 또 다시 Head가 나올 확률은 얼마일 것으로 추정하는가?


모든 경우의 수를 표로 정리한다면 아래 표와 같고, 첫 시행의 결과가 head라는 사실을 나타내면,


어떠한 경우에도 Tail이 한 번 나온 이상 Head 두 개가 번갈아 나오는 경우의 수는 존재하지 않는다.

마찬가지로 첫 시행이 Tail이라는 조건이 주어진 순간, 모든 경우의 수 중 첫 시행이 Head인 경우의 수는 지워버리는 것과 같다.

사건이 서로 독립적일 때에 두 사건의 교차 확률은 로 전개된다.

주사위 문제로 넘어와서, 두 주사위를 던지는 상황을 가정해보자.
첫 시행의 결과가 6이고 두 시행의 합이 10이 되는 확률을 구한다면 얼마의 확률값을 갖는가?

두 사건을 조금 더 풀어서 전개해보자.
첫 번째 사건은 주사위 눈금이 6이 나올 확률인 이었다.
두 번째 사건은 첫 시행이 6이 나올 확률 중에서 합이 10인 확률이므로 이다.

이를 통해 Conditional probability, 조건부 확률의 공식이 무엇인지 유도된다.

만일 두 사건이 독립적인 경우라면 이다.

즉, 두 번의 주사위를 던졌을 때의 합이 10이 나올 확률은 얼마인가?

만일 첫 시행에서의 주사위 눈금이 6이 나왔다면 은 얼마일까?

만일 첫 시행의 주사위 눈금이 1이 나왔다면 은 얼마인가?
불행하게도 첫 시행의 눈금이 1일 때는 두 눈금의 합이 10이 될 수 없다.

위에서 다뤘던 예제와 비슷하게, 이번에는 1반에만 TV가 놓여져 있다고 가정해보자.


이번에는 100명중 40명의 친구들이 축구를 할 줄 아는 상황이 주어진다고 가정해보자.

이러한 상황에서는 전체 sample space의 경우의 수가 100명이 아닌 40명으로 한정된다.

두 사건의 조건부 확률을 공식으로 정리해보자.

만일 축구를 하지 않는 학생들 중 운동화를 가지고 있는 학생의 비율이 50%라는 정보를 제공했다고 가정해보자.

모든 가능한 경우의 수를 정리해보면 다음과 같다.

아래 그림은 여러 조건에 따른 비율의 변화를 나타낸다.

1,000,000명의 사람들 중에서 1/10,000의 확률로 아픈 사람이 존재한다고 가정해보자.
그리고 99%의 정확도를 갖는 양성 반응 테스트기가 있다.
그렇다면 아픈 사람으로 진단 받은 사람들 중에 그들이 실제로 아픈 사람일 확률은 얼마일까?

전체 사람이 1,000,000명이라면 999,900명의 건강한 사람이 건강하다고 진단받고, 100명의 사람이 병이 있는 것으로 진단 받는다.

우리는 이것을 기호로 이라 표현할 수 있다.
놀랍게도, 아프다고 진단받은 사람들 중 진짜로 아픈 사람일 확률은 0.0098로 계산된다.

아프다고 진단 받았지만 실제로 아픈 사람일 확률은 1% 미만이다.

모든 경우의 수를 정리하면 아래 그림과 같다.


다시 한 번 정리하면 다음과 같은 식으로 Bayes Theorem 예시를 전개할 수 있다.

자, 그럼 이제 양성 반응 테스트를 한 사람들 중 실제로 아픈 사람일 확률을 구해보자.

1/10,000의 확률로 병에 걸릴 수 있다는 것과 테스트기의 정확도가 99%라는 정보는 어떤 결과를 유도해낼까?
: 전체 사람들 중 아픈 사람일 확률
: 전체 사람들 중 건강한 사람일 확률
: 실제로 아픈 사람이 아프다고 진단 받을 확률
: 실제로는 건강한 사람이 아프다고 진단 받을 확률

사건이 실제로 아픈 사람을 나타내고 사건이 아프다고 진단 받을 확률을 나타낸다고 하자.
: Conditional Probability를 통해 사건을 전개해 보면 다음과 같다.

우리가 알고 있는 정보는 왼쪽의 4가지 정보 뿐이며. 오른쪽의 조건부 확률을 계산하기 위해서는 과 을 알아야 한다.

을 조건부 확률의 정의로 전개하면 다음과 같다.

모든 경우의 수를 tree로 놓고 보았을 때, 위 경우는 아픈 사람이자 병을 진단 받을 확률이므로 아래와 같은 한 가지로 뻗어 나감을 알 수 있다.

그러면 은 어떻게 구할까?

아프다고 진단 받은 사람의 경우의 수를 둘로 쪼개보면 {실제로 아픈 사람일 경우}와 {실제로는 건강한 사람일 경우}가 있다.
이 두 확률의 합이 전체 sample space인 {아픈 사람이라고 진단 받을 확률}이다.

아래 식을 와 두 사건으로 정리하면 다음과 같다.

우리가 구하고자 했던 의 확률은 Bayse Theorm을 사용함으로써 우리가 알고 있는 확률들의 값으로 표현 가능해진다.

조금 더 수식적으로 정리하면 아래와 같다.

모든 확률 값을 대입하여 찾고자 하는 확률을 구한다면, 0.0098로 아까 전에 구했던 답과 정확하게 일치한다.

Spam example을 통해 Bayes Theorem을 정리해보자.

lottery 단어가 들어있는 메일이 실제로 spam 메일일 확률은 얼마일까?

Conditional probability의 공식은 로 정리할 수 있다.
다시 말해, lottery 단어가 들어있는 메일들 중 사실상 spam 메일인 확률이므로 교집합 경우의 수를 고려해야 한다.
즉, 24개의 "lottery"가 들어있는 메일 중에서 14개의 메일이 실제 spam 메일이기 때문에 우리가 판별하고자 하는 task를 수행하는 모델이 뽑아낼 logit이라 보면 된다.

사건이 spam 메일인 사건, 사건이 "lottery"가 들어있는 메일에 대한 사건일 때 우리가 알고 있는 확률들로 이를 정리해보자.

각 확률값을 계산해보면 아래와 같이 계산된다.

따라서 Bayes theorem으로 사후 확률을 계산해보면 아래와 같이 의 확률로
처음 구했던 의 확률과 똑같은 값이 계산된다.

Prior probability는 , 특정 Event는 , Posterior probability는 이다.

Spam 메일을 받을 확률인 Prior probability는 {spam 메일을 받는 경우의 수}를 {spam + not spam}으로 나눈 값으로 계산된다.

주사위를 굴렸을 때의 결과도 마찬가지다.
두 번의 주사위를 굴리고자 할 때, 합쳐서 10이 나올 확률은 사전 확률, 첫 번째 시행에서 6이 나올 확률은 하나의 특정한 사건 event다.

동전 두 번 던지는 예제에서도 마찬가지이다.
Head가 두 번 나올 확률은 인 상황에서 첫 번째 시행이 Head였다고 한다면 오른쪽 표의 아래 두 경우의 수는 고려 대상이 아니다.

두 event가 모두 발생했을 때의 경우는 어떨까?
기존에는 "lottery" 단어만 들어간 경우의 spam 메일만을 판별했다면 이번에는 "winning"이라는 단어까지 들어간 경우를 고려해보자.

"lottery"와 "winning"이라는 단어가 모두 들어간 spam메일의 확룔을 구하고자 Bayes Theroem을 이용해 전개해보았다.
로 전개할 수 있다.

Event가 100개 가량으로 더욱 많아진다면 어떨까?

계산을 빠르고 효율적으로 해내기 위해 Naive한 가정을 세워보자.
조건부 확률을 기준으로, 두 사건이 independent하다면 공식으로 전개가 가능하다.

두 사건을 독립 사건으로 가정하면 아래와 같이 수식이 다시 전개된다.

100단어를 예측해야하는 task에서도 마찬가지다.

"lottery" 단어가 포함된 메일을 기준으로 아래 네 가지 확률을 각각 계산해보자.

"winning" 단어가 포함된 메일을 기준으로 두 확률을 추가로 계산해보자.

사후 확률인 은 아래의 수식을 거쳐 계산된다.

-Bayes Theorem은 Maching Learning의 핵심 개념이다.
Prior prob, Event Posterior를 가지고 likelihood를 modeling하는 것이 머신러닝이다.

Image recognition problem에서의 기대 확률은 다.

Classification Disease problem에서의 기대 확률은 이다.

Sentimental analysis에서의 기대 확률은 다.

만약 cat 사진을 판별하는 모델을 모델링 했다고 가정해보자.
그렇다면 cat 사진이 들어왔을 때에는 를 기대 확률로 생각한다.
반대로 car 사진이 들어왔을 때에는 를 기대 확률로 생각한다.

Generative model의 task는 image를 human 사진과 아주 유사하게 생성해내는 모델이다.

동전 던지기 예제로 돌아가보자.
Random variable이란 "head가 나타날 횟수"와 같은 변수를 말한다.

10번의 동전을 던졌을 때 개의 head가 나올 확률은 얼마일까?
Head가 한 번 나올 확률은 이다.

Possible outcomes는 0~10까지이다.

500번의 시행으로 각 random variable의 확률을 히스토그램으로 표현한 결과다.

왜 Random variable을 사용하는 것일까?
Random variable은 한 번의 시행에서 모델이 뽑아낼 수 있는 모든 가능한 결과를 나타낸다.

여러 Random variable의 예시를 살펴보자.

Random variables는 Discrete vs. Continous한 경우로 나뉜다.

Random variable과 Deterministic variable의 차이는 다음과 같다.
Deterministic은 가 특정 함수로 mapping되는 경우로, outcome이 정해져있는 상황이다.
Random variable은 uncertain outcome을 야기한다.

Discrete한 경우의 Probability Distributions, 확률 분포를 알아보자.
, , , 일 때의 경우의 수를 모두 정리하면 다음과 같다.

Normal histogram으로 그려보자.



Random variable에 따른 확률 분포 함수는 PMF(Probability Mass Function)라 한다.
Random variables가 discrete한 경우에 각 확률 또한 특정 값으로 discrete하게 표현되며, 수식은 ex. 로 표현한다.
이 때 모든 확률은 양수()여야 하며 전체 확률 값을 더했을 때
() 1을 만족해야 한다.

지금까지 번의 시행으로 얻을 수 있는 확률에 대해 알아보았다.

5번의 동전 던지기를 통해 2번의 head를 얻을 수 있는 확률은 얼마인가?


이를 수식으로 표현하면 다음과 같다.


이는 로 나타내며 k를 선택하는 것과 그렇지 않은 n-k를 선택하는 경우가 동일하다.

임을 알고 있을 때의 5번의 시행 횟수에 대한 General PMF를 알아보자.

이를 Binomial Distribution이라 하며 기호로는 아래와 같이 쓴다.

마치 parameter의 역할을 하는 과 를 고정시켜 분포로 표현해보자.

만약 Biased coin을 사용한다면 분포는 살짝 달라진다.

일반적으로, 번의 시행 횟수에 대한 PMF는 아래와 같이 정의한다.
,

Quiz. 5번의 주사위를 던져 1이 3번 나올 확률은?

Dice는 마치 Biased coin과 같다.


Quiz. Binomial distraibution의 parameters는 무엇인가?


Binomial Coefficient가 어떻게 유도되는지 알아보자.

중복되는 ordered set의 개수는 n번의 시행 횟수의 factorial로 설명할 수 있다.

수식으로 정리하면 다음과 같다.

은 1이다.





Biased coin으로 binomial distribution 히스토그램를 나타내면 아래 그림과 같이 그려진다.

Bernoulli Distribution은 한 번의 시행에서 얻어낼 수 있는 success와 failure의 확률을 나타낸다.

콜센터에 전화하였을 때 기다려야하는 시간에 대한 확률을 알아보자.


따라서 사실상 기다린 시간이 1분인 사람의 확률을 구하는 것은 거의 에 가깝다고 볼 수 있다.




확률 변수를 계속해서 잘게 쪼개다 보면 아래 그림과 같이 smooth한 함수로 그래프가 그려진다.

위의 예시에서 random variable을 1분 단위로 쪼개고 각 확률의 값이 동일하다고 가정해보자.

이번에는 random variable을 0.5분 단위로 쪼개고 각 확률의 값이 동일하다고 가정하자.




Finite한 interval of bar의 넓이의 합은 smooth한 그래프 아래 면적과 같다.

Question. 시간이 명확하게 2분인 확률은 얼마일까?
은 bar의 넓이가 존재하지 않으므로 0이다.


PDF(Probability Density Function)를 기호로 나타내면 다.
확률 변수가 continous한 경우, 구간의 확률 는 a부터 b까지의 아래 면적을 의미한다.
또한, 세 가지 조건을 만족해야 한다.

Discrete vs Continous Random Variables의 경우를 정리해보자.

Cumulative Distribution Function, CDF에 대해 알아보자.

CDF는 PDF의 구간 면적의 값을 나타내는 적분형 함수다.

CPF는 우리가 알고자 하는 certain value 까지의(until) 누적 확률을 나타낸다.

PDF의 properties는 아래와 같다.

PDF와 CDF의 차이는 아래와 같이 설명될 수 있다.

아래와 같은 상황을 가정해보자.
0에서 15분 사이의 어떠한 시간대에든 대답을 할 수 있다.

200번의 시행을 반복하였을 때, 대답한 시각을 점 찍어 보자.
0-15분 사이의 시간에 존재하는 점들은 equally distributed하다.

Time을 잘게 쪼개어 확률 분포로 표현하면 오른쪽과 같은 그림의 histogram이 나온다.

(0, 15) 사이의 값이 same frequency를 가진다면, 해당 interval 확률은 모두 동일하다.
이를 주황색 line으로 나타내어 Uniform distribution의 PDF를 완성한다.

Uniform distribution의 parameters는 각 구간의 endpoint 와 이다.
PDF 수식은 아래와 같다.


PDF를 활용해 CDF를 그리는 과정을 각 마다 쪼개서 나타낸 결과는 아래와 같다.



Uniform distribution의 CDF를 수식으로 나타내면 다음과 같다.

가장 보편적이고 중요한 확률 분포인 Normal Distribution(Gaussian Distribution)에 대해 알아보자.
Binomial Distribution을 따르는 시행을 무한히 큰 에 대하여 시행했을 때의 분포는 아래와 같은 그래프 모양을 가진다.
이와 같은 Bell shaped curve 그래프가 Normal distribution의 그래프 형태와 비슷한 모양을 갖는다.

Bell shaped curve function인 함수는 0이 중심인 함수다.
우리의 data 분포는 오른쪽 파란색 그래프와 같이 중점 부분이 치우쳐진 함수다.

의 중심인 는 0이고 data 분포의 는 2다.

x를 오른쪽으로 움직일 방법은 를 로 치환하면 된다.

이제는 너비를 조정해야 한다.

너비를 넓히는 일은 변수를 넓히고자 하는 값으로 나누어 치환하는 방법을 사용한다.

마지막으로 높이를 변경해야 한다.
높이가 달라지면 확률 전체의 합이 1을 벗어나는 것과 연관성이 있다.

최종 bell curve가 data 분포와 거의 동일해진 결과를 나타내면 아래 그림과 같다.

는 중앙 random variable, function의 width에 해당한다.

는 center of the bell, spread of the bell이다.

앞에 상수로 놓인 는 Scailing constant로 쓰인다.




Normal Distribution으로 standard한 분포를 만드는 일은 매우 쉽다.



Normal Distribution의 CDF는 어떻게 그려질까?

확률을 계산하는 일은 더이상 손으로 불가능하다..

Normal Distribution이 쓰이는 예시들은 아래의 상황에서 주로 쓰인다.

Chi-Squared Distribution, 만약 전파를 주고 받는 두 송전탑이 있다고 해보자.

Noise 가 standard normal distribution을 따른다면, power of noise 은 얼마일까?

우리가 알고자 하는 누적 확률 CDF는 에 대한 로부터 유도될 수 있다.
가 normal distribution을 따르기 때문에 해당 그래프의 구간 적분 값이 의 CDF다.

의 PDF를 알고 싶다면 CDF인 를 미분함으로써 구할 수 있다.

Chi-Square Distribution은 normal distribution을 확률 분포로 갖는 여러 개의 의 합을 모델링하고 싶을 때 쓰인다.


더해지는 noise가 클수록 분포는 more spread, more symmetrical해진다는 특성이 있다.
k transmissions일 때, 를 모델링하면 오른쪽 그래프 형태를 띤다.

Distribution이 결정되어 있을 때 변수를 Sampling하는 방법에 대해 알아보자.
0과 1 사이의 값을 random하게 generate한다.
Generate한 값이 [0, 0.3), [0.3, 0.8), [0,8, 1) 세 구간 중 어느 구간에 속하는지 알아낸다.
결과를 interval에 표시한다.
몇 가지 변수들만이 존재할 때, 확률의 크기가 크면 클수록 Blue 변수의 개수가 다른 색들의 변수 개수보다 좀 더 많을 것이다.
따라서 각 구간의 확률 크기에 따라 random 변수가 놓일 구간의 확률도 결정된다.

아래 분포를 CDF로 나타내면 오른쪽 그림과 같이 그려진다.
그래프를 오른편에서 바라보았을 때 Orange, Blue, Green 각각의 확률(y축)을 찍어 해당 변수(x축)가 어떤 값인지 기록해보자.

Normal Distribution의 CDF를 통해 Random variables를 Sampling하는 방법 또한 마찬가지다.
