이 논문(ARROW)에서 사용된 세 가지 평가지표는 추천 시스템이 '얼마나 정확하게', 그리고 '얼마나 개인의 취향에 맞게' 추천했는지를 측정하는 도구들이에요.
- AUC (Area Under the Curve)
의미: 모델이 "사용자가 이 아이템을 좋아할 것인가?"를 예측하는 전체적인 정확도를 나타냅니다.
해석: 1에 가까울수록 모델이 긍정적인 반응(클릭 등)과 부정적인 반응을 아주 잘 구분해낸다는 뜻이에요.
- UAUC (User-specific AUC)
의미: '개인화' 성능을 측정하는 핵심 지표로, 각 사용자별로 AUC를 계산한 뒤 그 값들을 평균 낸 것입니다.
중요성: 전체 평균만 보는 AUC와 달리, 사용자 한 명 한 명의 고유한 취향을 얼마나 잘 맞췄는지를 보여줍니다.
결과: ARROW는 특히 이 UAUC 지표에서 기존 모델들보다 큰 향상을 보였는데, 이는 ARROW의 추론 방식이 개별 사용자의 복잡한 선호도를 깊이 있게 이해하고 있음을 증명합니다.
- NDCG (Normalized Discounted Cumulative Gain)
의미: 추천된 리스트의 '순위(Ranking)'가 얼마나 정확한지를 평가합니다.
해석: 사용자가 정말 좋아할 만한 아이템이 추천 리스트의 상단(앞부분)에 위치할수록 점수가 높게 나옵니다. 즉, "좋은 걸 먼저 보여줬는가"를 측정하는 지표예요.
요약하자면,
AUC: "전체적으로 잘 맞췄니?"
UAUC: "개개인의 취향을 존중했니?" (ARROW의 강점!)
NDCG: "가장 좋아하는 걸 맨 앞에 뒀니?"