MAB-1

HanJu Han·2024년 12월 2일

추천 시스템

목록 보기

25/49

1. MAB의 기본 개념

카지노의 슬롯머신을 생각해보세요. 여러 대의 슬롯머신이 있고, 각각의 슬롯머신은 서로 다른 당첨 확률을 가지고 있습니다. 하지만 우리는 그 확률을 모릅니다. 제한된 동전으로 최대한 많은 당첨금을 얻으려면 어떻게 해야 할까요?

이것이 바로 MAB 문제의 본질입니다. 여기서:

2. 추천 시스템에서의 MAB

넷플릭스의 영화 추천을 예로 들어보겠습니다:

3. 핵심 딜레마: 탐색 vs 활용

영화 평점 데이터 예시:

액션: 20번 추천, 평균 평점 4.5점
드라마: 5번 추천, 평균 평점 3.5점
SF: 1번 추천, 평균 평점 5.0점

여기서 딜레마가 발생합니다:

4. Thompson Sampling의 해결책

이 딜레마를 해결하기 위해 Thompson Sampling은 베타 분포를 활용합니다:

1) 각 장르의 성공/실패를 기록:

액션: Beta(17,5) // 16성공, 4실패
드라마: Beta(4,6) // 3성공, 5실패
SF: Beta(2,1) // 1성공, 0실패

2) 매 추천마다 각 장르에서 무작위 샘플링:

액션: 0.76이 추출됨 
드라마: 0.35가 추출됨
SF: 0.92가 추출됨

3) 가장 높은 값이 나온 SF 영화를 추천

4) 사용자 반응에 따라 베타 분포 업데이트:

5. Thompson Sampling의 장점

1) 자연스러운 균형:

2) 불확실성의 자동 반영:

3) 동적 적응:

6. 실제 적용 시 고려사항

1) 성공/실패의 정의:

2) 콜드 스타트:

3) 문맥 정보:

이렇게 MAB는 불확실성 하에서의 의사결정 문제를 해결하는 효과적인 방법을 제공합니다. 특히 Thompson Sampling은 이론적 배경과 실용성을 모두 갖춘 해결책으로, 현대 추천 시스템에서 널리 활용되고 있습니다.

시리즈를 기반으로 작성하였습니다.