1. MAB의 기본 개념
카지노의 슬롯머신을 생각해보세요. 여러 대의 슬롯머신이 있고, 각각의 슬롯머신은 서로 다른 당첨 확률을 가지고 있습니다. 하지만 우리는 그 확률을 모릅니다. 제한된 동전으로 최대한 많은 당첨금을 얻으려면 어떻게 해야 할까요?
이것이 바로 MAB 문제의 본질입니다. 여기서:
2. 추천 시스템에서의 MAB
넷플릭스의 영화 추천을 예로 들어보겠습니다:
3. 핵심 딜레마: 탐색 vs 활용
영화 평점 데이터 예시:
액션: 20번 추천, 평균 평점 4.5점
드라마: 5번 추천, 평균 평점 3.5점
SF: 1번 추천, 평균 평점 5.0점
여기서 딜레마가 발생합니다:
4. Thompson Sampling의 해결책
이 딜레마를 해결하기 위해 Thompson Sampling은 베타 분포를 활용합니다:
1) 각 장르의 성공/실패를 기록:
액션: Beta(17,5) // 16성공, 4실패
드라마: Beta(4,6) // 3성공, 5실패
SF: Beta(2,1) // 1성공, 0실패
2) 매 추천마다 각 장르에서 무작위 샘플링:
액션: 0.76이 추출됨
드라마: 0.35가 추출됨
SF: 0.92가 추출됨
3) 가장 높은 값이 나온 SF 영화를 추천
4) 사용자 반응에 따라 베타 분포 업데이트:
5. Thompson Sampling의 장점
1) 자연스러운 균형:
2) 불확실성의 자동 반영:
3) 동적 적응:
6. 실제 적용 시 고려사항
1) 성공/실패의 정의:
2) 콜드 스타트:
3) 문맥 정보:
이렇게 MAB는 불확실성 하에서의 의사결정 문제를 해결하는 효과적인 방법을 제공합니다. 특히 Thompson Sampling은 이론적 배경과 실용성을 모두 갖춘 해결책으로, 현대 추천 시스템에서 널리 활용되고 있습니다.