가상의 '패션 이커머스' 데이터를 기반
사용자 A의 실제 구매 이력:
상품ID | 상품명 | 구매일자 | 구매가격 | 평점
P001 | 청바지 | 2024-01-15 | 89,000 | 5
P023 | 티셔츠 | 2024-01-20 | 35,000 | 4
P045 | 운동화 | 2024-02-01 | 129,000 | 5
P067 | 자켓 | 2024-02-15 | 159,000 | 3
P089 | 모자 | 2024-03-01 | 29,000 | 4
a) Precision@K (정밀도)
시스템 추천 결과:
순위 | 상품ID | 상품명 | 실제 구매 여부
1 | P001 | 청바지 | O
2 | P102 | 벨트 | X
3 | P023 | 티셔츠 | O
4 | P156 | 양말 | X
5 | P045 | 운동화 | O
6 | P189 | 선글라스 | X
7 | P067 | 자켓 | O
8 | P234 | 스카프 | X
9 | P089 | 모자 | O
10 | P278 | 팔찌 | X
Precision@5 계산:
b) 평균 정밀도(Average Precision, AP)
위치별 정밀도:
1위: 1/1 = 1.0
3위: 2/3 ≈ 0.67
5위: 3/5 = 0.6
7위: 4/7 ≈ 0.57
9위: 5/9 ≈ 0.56
AP = (1.0 + 0.67 + 0.6 + 0.57 + 0.56) / 5 ≈ 0.68
c) NDCG@5 상세 계산
실제 평점 기준:
DCG@5 = 5/log₂(2) + 0/log₂(3) + 4/log₂(4) + 0/log₂(5) + 5/log₂(6)
= 5/1 + 0/1.58 + 4/2 + 0/2.32 + 5/2.58
= 5 + 0 + 2 + 0 + 1.94
= 8.94
이상적 순서(IDCG@5):
IDCG@5 = 5/1 + 5/1.58 + 4/2 + 4/2.32 + 3/2.58
= 5 + 3.16 + 2 + 1.72 + 1.16
= 13.04
NDCG@5 = 8.94/13.04 ≈ 0.686 = 68.6%
아래 참조
추천의 시간적 적절성 평가:
최근성 가중치:
- 1주일 이내: 1.0
- 1달 이내: 0.8
- 3달 이내: 0.6
- 6달 이내: 0.4
- 그 이상: 0.2
시간 가중 정밀도 = Σ(정밀도 × 시간 가중치) / 추천 수
연관 구매 정확도:
실제 장바구니 조합:
- {청바지, 벨트} → 70% 동시 구매율
- {운동화, 양말} → 85% 동시 구매율
- {자켓, 스카프} → 45% 동시 구매율
번들 추천 정확도 = 실제 동시 구매율의 평균
= (70% + 85% + 45%) / 3 = 66.7%
실제 비즈니스 영향 평가:
매출 기여도:
- 직접 구매 전환율: 12%
- 간접 구매 전환율: 8%
- 장바구니 크기 증가율: 15%
- 객단가 상승률: 23%
고객 행동 지표:
- 클릭률(CTR): 8.5%
- 체류시간 증가: 2.3분
- 재방문율: 45%
테스트 기간: 2024.01.01 - 2024.03.31
테스트 그룹 크기: 각 10,000명
| 기존 모델(A) | 신규 모델(B) | 변화율
----------|------------|-------------|--------
CTR | 5.2% | 8.5% | +63.5%
전환율 | 2.8% | 3.9% | +39.3%
객단가 | 78,000원 | 96,000원 | +23.1%
NDCG@5 | 0.58 | 0.686 | +18.3%
고객 생애 가치(LTV) 영향:
- 3개월 재구매율: +25%
- 6개월 누적 구매액: +35%
- 고객 이탈률: -15%
브랜드 지표:
- NPS 상승: +12포인트
- 고객 만족도: +18%
- 앱 사용 빈도: +27%
이러한 복합적인 평가 지표들을 통해:
1. 추천의 정확성
2. 순서의 적절성
3. 시간적 연관성
4. 비즈니스 영향
5. 장기적 고객 가치
를 종합적으로 평가할 수 있습니다. 특히 실제 환경에서는 이러한 지표들을 실시간으로 모니터링하고, 임계치를 설정하여 자동으로 알림을 받을 수 있도록 구성하는 것이 중요합니다.
또한 계절성, 트렌드 변화, 프로모션 효과 등의 외부 요인을 고려한 보정된 지표도 함께 활용하면 더욱 정확한 평가가 가능합니다.
추천 순서와 실제 평점:
1위: P001 (청바지) - 평점 5점
2위: P102 (벨트) - 미구매 0점
3위: P023 (티셔츠) - 평점 4점
4위: P156 (양말) - 미구매 0점
5위: P045 (운동화) - 평점 5점
1위: 5/log₂(1+1) = 5/log₂(2) = 5/1 = 5
2위: 0/log₂(2+1) = 0/log₂(3) = 0/1.58 = 0
3위: 4/log₂(3+1) = 4/log₂(4) = 4/2 = 2
4위: 0/log₂(4+1) = 0/log₂(5) = 0/2.32 = 0
5위: 5/log₂(5+1) = 5/log₂(6) = 5/2.58 = 1.94
총합(DCG@5) = 5 + 0 + 2 + 0 + 1.94 = 8.94
1위(5점): 5/log₂(2) = 5/1 = 5
2위(5점): 5/log₂(3) = 5/1.58 = 3.16
3위(4점): 4/log₂(4) = 4/2 = 2
4위(4점): 4/log₂(5) = 4/2.32 = 1.72
5위(3점): 3/log₂(6) = 3/2.58 = 1.16
총합(IDCG@5) = 5 + 3.16 + 2 + 1.72 + 1.16 = 13.04
NDCG@5 = DCG@5/IDCG@5
= 8.94/13.04
= 0.686
= 68.6%
이 결과가 의미하는 것:
실제 평가에서 중요한 점:
1. 높은 평점의 상품이 상위에 올수록 좋은 점수
2. 같은 평점이라도 순서가 뒤로 갈수록 가중치가 낮아짐
3. 이상적인 순서와 비교하여 상대적인 성능을 평가