해당 내용은 아래 강좌를 정리한 내용입니다.
https://www.edwith.org/ai152
확률변수는 subset of the sample space 에 숫자를 할당하는 함수임!
따라서 정의에 따라 (X=1)는 사건임. 또한 (X<10)도 사건임. 따라서 우리는 확률이라는 함수의 정의에 따라 다음과 같이 표기할 수 있음 P(X<8)
확률 분포는 확률 변수 X가 어떻게 다르게 행동할지에 대한 확률임.
이항분포의 의미
X 를 n개의 독립시행에서 성공한 횟수, 이때 각 시행은 독립적인 베르누이 시행이어야함.
지시확률변수(Indicator random variables) 를 이용하여 확률변수를 표현
, 이때 첫번째 시행에서 성공했다면 X_1=1, + 각 시행은 i.i.d (independent and identical distributed, 독립적이고 동일하게 분포되었다는 의미) 이때 동일하게의 의미는 X가 같은 분포를 가진다는 뜻.(여기선 베르누이 분포)
PMF (확률질량함수) : X가 가질 확률을 나타내는 함수로 표현할 수 있음, EX)
CDF : 누적 분포 함수 , 연속적인 확률변수에 대해서도 가능하니 자주 쓰임
PMF : 확률질량함수 X가 특정 값일 때를 나타내는 함수.
3가지 관점에서의 표현
수업에서는 3가지 방식으로 정리하여 증명함 당장은 일단 이해만하고 생략함.
X ~ 일반적인 카드에서 5장의 무작위 카드를 고르고 ace의 개수
X의 확률 분포가 어떻게 될 것인가?
여기서 X의 확률 분포를 구하기 위해 CDF 또는 PMF를 구해야하는데 이때 경우의 수가 얼마 없으므로 그냥 PMF를 구하기로함.
만약 이 문제에서 카드를 복원한다고 하면 각 사건은 독립적으로 같은 성공 확률을 가지므로 이항분포임.
다음과 같은 것을 초기하분포라고 함(hypergeometric distribution), 참고로 이는 방데르몽드 항등식과도 닮아있음.
초기하 분포는 두 그룹으로 나누어 한 그룹에서 특정만큼 뽑고 다른 그룹에서 특정만큼 뽑는 것과 닮아있음. 예를들어 elk문제