MAB-1

HanJu Han·2024년 12월 2일

추천 시스템

목록 보기
25/49

1. MAB의 기본 개념

카지노의 슬롯머신을 생각해보세요. 여러 대의 슬롯머신이 있고, 각각의 슬롯머신은 서로 다른 당첨 확률을 가지고 있습니다. 하지만 우리는 그 확률을 모릅니다. 제한된 동전으로 최대한 많은 당첨금을 얻으려면 어떻게 해야 할까요?

이것이 바로 MAB 문제의 본질입니다. 여기서:

  • 각 슬롯머신은 하나의 '팔(Arm)'을 의미
  • 동전을 넣는 행위는 하나의 '시도(Trial)'
  • 당첨금을 받는 것은 '보상(Reward)'

2. 추천 시스템에서의 MAB

넷플릭스의 영화 추천을 예로 들어보겠습니다:

  • 각 영화 장르가 하나의 '팔'
  • 영화를 추천하는 것이 '시도'
  • 사용자의 높은 평점이 '보상'

3. 핵심 딜레마: 탐색 vs 활용

영화 평점 데이터 예시:

액션: 20번 추천, 평균 평점 4.5점
드라마: 5번 추천, 평균 평점 3.5점
SF: 1번 추천, 평균 평점 5.0점

여기서 딜레마가 발생합니다:

  • 안정적인 액션 영화를 계속 추천할까? (활용)
  • 아직 충분히 시도하지 않은 SF를 더 추천해볼까? (탐색)

4. Thompson Sampling의 해결책

이 딜레마를 해결하기 위해 Thompson Sampling은 베타 분포를 활용합니다:

1) 각 장르의 성공/실패를 기록:

액션: Beta(17,5) // 16성공, 4실패
드라마: Beta(4,6) // 3성공, 5실패
SF: Beta(2,1) // 1성공, 0실패

2) 매 추천마다 각 장르에서 무작위 샘플링:

액션: 0.76이 추출됨 
드라마: 0.35가 추출됨
SF: 0.92가 추출됨

3) 가장 높은 값이 나온 SF 영화를 추천

4) 사용자 반응에 따라 베타 분포 업데이트:

  • 높은 평점(4-5점): 성공 +1
  • 낮은 평점(1-3점): 실패 +1

5. Thompson Sampling의 장점

1) 자연스러운 균형:

  • 초기에는 모든 장르가 Beta(1,1)로 시작
  • 넓은 분포로 인해 다양한 시도가 이루어짐
  • 데이터가 쌓일수록 좋은 선택에 집중

2) 불확실성의 자동 반영:

  • 시도 횟수가 적은 장르: 넓은 분포로 더 많은 기회
  • 시도 횟수가 많은 장르: 뾰족한 분포로 안정적인 선택

3) 동적 적응:

  • 사용자의 취향 변화를 자연스럽게 반영
  • 새로운 컨텐츠에 대한 기회 제공

6. 실제 적용 시 고려사항

1) 성공/실패의 정의:

  • 이진값이 아닌 경우(예: 1-5점 평점)
  • 임계값 설정(예: 4점 이상을 성공으로)

2) 콜드 스타트:

  • 새로운 컨텐츠 추가 시 초기 전략
  • 메타데이터를 활용한 사전 확률 설정

3) 문맥 정보:

  • 시간대, 요일, 장소 등 추가 정보 활용
  • 사용자 세그먼트별 다른 전략 적용

이렇게 MAB는 불확실성 하에서의 의사결정 문제를 해결하는 효과적인 방법을 제공합니다. 특히 Thompson Sampling은 이론적 배경과 실용성을 모두 갖춘 해결책으로, 현대 추천 시스템에서 널리 활용되고 있습니다.

profile
시리즈를 기반으로 작성하였습니다.

0개의 댓글