확률을 공부함에 있어 가장 중요한 개념이자 혼동되는 개념인 확률변수(Random Variables)에 대한 내용을 정리해보고자 합니다.
먼저 확률변수(Random Variables)는 확률 실험으로 발생 가능한 결과의 집합인 표본 공간(Sample Space)의 원소들에 대하여 대하여 특정한 실수() 값을 할당하는 함수라 말할 수 있습니다. 이해하기 굉장히 모호하다고 느꼈다면 그게 당연합니다. 우선 여기서는 확률변수란 함수라는 사실만 기억합시다.
먼저 표본공간(Sample Space, )에 대해 먼저 알아봅시다.
표본공간은 특정한 확률 실험(event)에 대해 발생 가능한 상태의 경우의 수 결과들의 집합입니다.
이해를 위해 "동전을 2번 던졌을 때 뒷면이 1번 나올 확률" 이라는 확률 실험 예제를 가정하겠습니다.
먼저 동전을 던진다고 가정했을때 발생할 수 있는 상태의 경우의 수는 앞, 뒤 2가지 입니다.
그럼 동전을 1번 던지는 실험에서 표본 공간 는 가 됩니다.
동전을 2번 던지는 이번 실험에서의 표본 공간은 다음과 같이 표현됩니다. (순서가 유의미하다고 봅시다.)
다음은 타겟공간(Target Space, )입니다. 타겟공간은 확률 실험으로 구하고자 하는 결과의 측정가능한 실수 형태의 집합입니다.
앞서 수행했던 확률 이벤트에서 목표하는 값은 "동전을 2번 던져서 나오는 뒷면의 수" 입니다.
그리고 동전을 2번 던져서 나올 수 있는 뒷면의 수는 0번, 1번, 2번이 있습니다. 그리하여 Target Space 는 다음과 같이 정의됩니다.
드디어 확률변수(Random Variables, ) 차례 입니다. 아까 전에 확률변수는 함수라고 이야기 했었지요?
확률변수는 앞서 설명했던 표본공간()의 모든 원소에 대하여 타겟공간()을 맵핑시키는 함수입니다.
본 확률실험에서는 각 표본공간의 원소에 대해서 다음과 같이 맵핑됩니다.
확률변수는 영어로 Random Variables이라고 불리지만 변수도 아니고 랜덤과는 관련이 없습니다.
마지막으로 확률변수 에 대하여 각 맵핑관계에 대한 확률이 정해져있다면 해당 확률의 결과를 반환하는 확률분포(Probability Function) 에 대해 알아봅시다.
전제했던 확률 실험은 "동전을 2번 던졌을 때 뒷면이 1번 나올 확률" 이었습니다.
이는 수식으로 표현하면 다음과 같이 0.5의 확률이 나옵니다.
좀 더 구체적으로 살펴보면 타겟공간 가 이산적(discrete)이라면 의 모든 값들 에 대한 확률로 다음과 같이 표시됩니다.
그리고 이런 경우 모든 에 대한 확률 의 합은 당연하게도 1이 됩니다.
[1] Wikipedia, https://en.wikipedia.org/wiki/Random_variable
[2] Marc Peter Deisenroth, A. Aldo Faisal, and Cheng Soon Ong, Mathematics for Machine Learning
[3] STAT 500, https://online.stat.psu.edu/stat500/