많은 성공 (Beta(9,3) - 8성공, 2실패)
많은 실패 (Beta(3,9) - 2성공, 8실패)
매우 많은 시도 (Beta(21,7) - 20성공, 6실패)
적은 시도 (Beta(2,2) - 1성공, 1실패)
중요한 패턴들:
1. 시도횟수가 많아질수록 → 곡선이 더 뾰족해짐
2. 성공이 많으면 → 오른쪽으로 치우침
3. 실패가 많으면 → 왼쪽으로 치우침
4. 성공과 실패가 비슷하면 → 0.5 근처에서 대칭적인 모양
이렇게 베타 분포는 우리의 불확실성을 수학적으로 표현해주며, Thompson Sampling은 이 분포에서 값을 추출함으로써 탐색과 활용의 균형을 자연스럽게 맞출 수 있습니다.
1. 베타 분포의 매개변수 의미
Beta(α, β)에서:
여기서 "+1"을 하는 이유는 매우 중요합니다. 이를 "라플라스 스무딩" 또는 "가법적 평활화"라고 하는데, 이는 처음부터 극단적인 확률 추정을 방지하기 위함입니다.
2. 동전 A의 경우 다시 보기
따라서:
그래서 Beta(9, 3)이 맞습니다!
3. 이해를 돕기 위한 극단적인 예시
만약 +1을 하지 않고 베타 분포를 만든다면:
동전을 1번 던져서 앞면이 나온 경우:
이렇게 베타 분포에서 매개변수에 1을 더하는 것은 섣부른 판단을 방지하고, 초기의 불확실성을 적절히 반영하기 위한 수학적 장치입니다.