Likelihood란 가능도를 말하며, 연속확률변수에서 어떤 사건의 가능성을 측정하기 위해 사용된다. 연속확률변수에서는 모수가 무한하기 때문에 모든 사건의 확률이 0이고, 구간에 대해서만 확률을 구할 수 있기 때문에 사건에 대해 추정하기 위해서는 가능도를 사용한다. 가능도는 확률밀도함수의 y값이다.
이산확률변수에서는 가능도와 확률이 같다.
BERT의 tokenizer인 SentencePiece에도 사용된 WordPiece model의 설명을 읽다가, 우도(가능도, likelihood)가 뭔지 찾아보게 되었다. 코퍼스의 우도를 높이는 방향으로 분해해놓았던 character들을 결합한다는데, 이게 무슨 말일까?
우도를 알기 위해서는 확률변수와 확률밀도함수에 대해 알아야 한다.
확률변수란 나올 수 있는 값들이 확률적 분포를 가지는 것이다. 확률 변수는 실수의 범위 내에서 모든 값으로 표현이 가능하며, 이를 사용하면 모든 표본은 실수의 집합으로 표시할 수 있다. 표본의 집합인 사건은 이 수직선 상의 숫자의 집합인 구간으로 표시된다.
확률변수에는 이산확률변수와 연속확률변수가 있는데, 이산확률변수는 말그대로 discrete한 확률변수이다. 대표적인 예시로는 주사위의 눈이 있다. 주사위를 던지면 1~6사이의 정수가 나오고 그 사이의 값은 나오지 않는다. (하지만 이것이 수의 범위가 한정되어있다는 의미는 아니다.)
연속확률변수는 몸무게와 같이 표본이 연속적인 확률변수이다. 이산확률변수는 각 사건의 확률을 구할 수 있지만, (예를 들어 주사위를 던져 3이 나올 확률은 1/6) 연속확률변수는 모수가 무한이기 때문에 각 사건의 확률은 모두 0이다. 따라서 연속확률변수에서는 구간을 정해 사건에 대해 추정할 수 있다.
여기에서 연속확률변수가 특정 구간에 속할 확률은 확률밀도함수 를 이용해 구할 수 있고, 드디어 우도가 등장한다.
우도는 확률밀도함수에서 해당 사건 x에 대응하는 y값이다. 이 방법으로 연속확률변수에서 구간뿐만 아니라 각 사건에 대해 추정할 수 있다. 이산확률변수에서는 특정 사건이 일어날 확률이 우도가 되며, 연속확률변수에서는 확률 밀도 함수의 y값이 우도가 된다.
MLE는 연속확률변수의 가능도를 최대로 하는 모수를 찾아가는 과정이라고 할 수 있다. 확률밀도함수에서는 모수 가 이미 알고 있는 상수계수이고 가 변수이지만, 가능도 함수에서는 반대로 모수 를 변수로 두고, 표본값인 를 상수계수로 본다.