추천 시스템 7장 : 추천 시스템 평가

태환·2023년 8월 10일
0

Recommendation System

목록 보기
7/12
post-thumbnail

📌 개요

  • 실험 평가를 잘못 설계하면 특정 알고리듬이나 모델의 실제 정확도를 크게 과소평가하거나 과대평가할 수 있기 때문에 적절하게 설계하는 것이 중요하다.
  • 추천 시스템은 온라인 방법이나 오프라인 방법을 사용해 평가할 수 있다.

추천 시스템의 평가 방법을 설계하는 관점에서 다음과 같은 사항이 중요하다.

1. 평가 목표 : 정확도 메트릭은 가장 중요한 구성 요소이지만 참시함, 신뢰도, 커버리지 및 의외성과 같은 많은 보조 목표는 사용자가 추천 시스템을 이용할 때 중요하다.
2. 실험 설계 문제 : 정확도를 측정 기준으로 사용할 때에도 정확도를 과대평가하거나 과소평가하지 않도록 실험을 설계하는 것이 중요하다.
3. 정확도 측정 항목 : 추천 시스템은 평가 예측 정확도 또는 아이템의 순위 정확도 측면에서 평가할 수 있다.

📌 평가 패러다임

  • 추천 시스템에는 사용자 연구, 온라인 평가오프라인 평가에 해당하는 세 가지 주요 유형 평가가 있다.

📖 사용자 연구

  • 사용자 연구에서 시험 대상을 적극적으로 모집하고 특정 작업을 수행하기 위해 추천 시스템과 상호작용하도록 요청한다.
  • 상호작용 전후에 사용자로부터 피드백을 수집할 수 있으며 시스템은 추천 시스템과의 상호작용에 대한 정보도 수집한다.
  • 장점
사용자가 시스템과의 상호작용에 대한 정보 수집을 허용한다는 것이다.
  • 단점
1. 사용자가 추천 시스템이 테스트 중인 것을 인식하면 사용자의 선택과 행동에 바이어스를 줄 수 있다.
2. 평가를 위해 많은 수의 사용자를 모집하는 것은 어렵고 비용이 많이 든다.
  • 사용자 평가의 결과를 완전히 신뢰할 수는 없다.

📖 온라인 평가

  • 온라인 평가는 사용자가 완전 배포 또는 상용화된 시스템의 실제 사용자인 경우를 제외하고 사용자 연구를 활용한다.
  • 이러한 접근 방식은 종종 사용자가 자연스러운 업무 과정에서 시스템을 직접 사용하기 때문에 모집 절차의 바이어스에 덜 취약하다.
  • 이러한 시스템은 다양한 알고리듬의 비교 성능을 평가하는 데 사용하는 경우가 많다.

A / B 테스트

  • 이 방법의 기본 아이디어는 다음과 같이 두 개의 알고리듬을 비교하는 것이다.
  1. 사용자를 그룹 A와 그룹 B로 나눈다.
  2. 두 그룹에 걸쳐 가능한 비슷하게 다른 모든 조건 A 그룹에 대해 하나의 알고리듬을 사용하고 B 그룹에 다른 알고리듬을 사용한다.
  3. 과정이 끝나면 두 그룹의 전환율을 비교한다.

멀티암 밴딧 알고리듬

  • 사용자와 추천 시스템 간의 상호작용의 결과를 개별적으로 측정할 수 있는 경우 사용자를 그룹으로 엄격하게 구분할 필요가 없다.
  • 동일한 사용자는 알고리듬 중 하나를 랜덤하게 볼 수 있으며, 특정 상호작용으로부터 얻는 결과를 측정할 수 있다.
  • 현실적으로 많은 사용자가 미리 등록돼 있지 않으면 이러한 시스템을 효율적으로 사용할 수 없다는 단점이 있다.

📖 과거 데이터 세트를 사용한 오프라인 평가

  • 오프라인 테스트에서는 평점과 같은 과거에 등록한 데이터를 사용한다.

과거 데이터 장점/단점

  • 장점
1. 많은 사용자의 액세스가 필요 없다는 것이다.
2. 다양한 도메인의 여러 데이터 세트를 추천 시스템의 일반화 가능성을 테스트하는 데 사용 할 수 있다.
  • 단점
향후 추천 시스템에 반응하는 사용자의 실제 성향을 측정하지 않는다는 것이다.
  • 오프라인 방법은 추천 시스템 평가를 위해 가장 널리 받아들여지는 기술이다.
    그 이유는 이러한 테스트 방법을 통해 통계적으로 강력하고 이해하기 쉬운 정량화가 가능하기 때문이다.

📌 평가 디자인의 일반적 목표

  • 정확성이라는 잘 알려진 목표 외에, 다른 일반적인 목표로 다양성, 의외성, 참신함, 견고성확장성같은 요소를 포함한다.

📖 정확성

  • 정확성은 추천 시스템을 평가하는 가장 기본적인 척도 중 하나다.
  • 평점 예측의 정확성과 순위의 정확성을 평가하기 위해 여러 가지 방법을 이용한다.
  • 정확도 평가의 주요 구성 요소는 다음과 같다.
  1. 정확도 평가 설계 : 평점 행렬에 있는 모든 관찰된 원소를 모델 학습 및 정확도 평가에 사용하면 과적합으로 인해 정확도가 크게 과대평가 되기 때문에 학습에 사용하는 것과 다른 평가를 위한 원소 집합만 사용하는 것이 중요하다.
  2. 정확도 측정 항목 : 정확도 측정 항목은 특정 사용자-아이템 조합의 평점을 추정한 예측 정확도 또는 추천 시스템에 의해 예측된 최상위 k 순위의 정확도를 평가하는 데 사용한다.
    2-1. 평점 추정의 정확성 : 원소별 오류는 사용자 u와 아이템 j에 대한 오차가 제공한다.
  • 평균 제곱 오차의 한 예가 MSE이다.
  • 앞에서 언급한 양의 제곱근을 평균 제곱근 오차 또는 RMSE라고 한다.

    2-2. 순위 추정의 정확성 : 정확성을 측정하기 위해 실측 자료의 성격에 따라 순위 상관 측정, 효용 기반 측정 또는 수신자 조작 특성을 사용할 수 있다.
  • 정확도 측정의 주요 문제점은 실제 환경에서 추천 시스템의 진정한 효과를 측정하지 않는 경우가 많다는 것이다.

📖 커버리지

아이템의 특정 비율만큼 추천할 수 없는 경우나 특정 비율의 사용자에게 추천할 수 없는 경우도 종종 있으며, 이에 대한 측정을 커버리지라고 한다.
  • 추천 시스템의 평점 행렬이 희박하기 때문에 이러한 한계가 존재한다.
  • 각기 다른 추천 시스템마다 커버리지를 제공하는 성향의 수준이 다르다.
  • 특정 사용자-아이템 조합에 대한 평점을 예측할 수 없을 때 아이템에 대한 모든 사용자 평점의 평균을 기본값으로 사용하기 때문에 정확성과 커버리지 사이의 트레이드 오프는 항상 프로세스에 포함돼야 한다.

커버리지에는 두 가지 유형이 있다.

  1. 사용자-공간 커버리지 : 적어도 k개의 평점을 예측할 수 있는 사용자의 비율을 측정한다.
    • 사용자-공간 커버리지의 까다로운 측면은 모든 알고리듬이 사용자-아이템 조합에 대해 무작위로 평점을 단순히 예측함으로써 완전한 커버리지를 제공할 수 있기 때문에 사용자-공간 커버리지는 정확도와 커버리지간의 트레이드 오프 측면에서 항상 평가해야 한다.
  2. 아이템-공간 커버리지 : 적어도 k명의 사용자 평점을 예측할 수 있는 아이템의 비율을 측정한다.
    • 실제로 이 개념은 거의 사용하지 않으며 아이템에 대한 사용자를 추천하는 데 거의 사용하지 않는다.

📖 신뢰도와 신뢰

  • 평점을 추정하는 것은 특정 학습 데이터에 따라 크게 달라질 수 있는 부정확한 과정이다.
  • 많은 추천 시스템은 신뢰도 평가와 함께 평점을 보여줄 수 있다.
  • 작은 신뢰 구간으로 정확하게 추천할 수 있는 추천 시스템은 사용자의 신뢰를 높이기 때문에 더 바람직하다.
신뢰도가 시스템의 추천에 대한 믿을 측정하는 동안 신뢰는 사용자의 평가에 대한 믿음을 측정한다.
  • 추천 시스템이 이미 사용자가 좋아하고 알고 있는 몇 가지 아이템을 추천하는 경우 사용자에게 이러한 추천은 거의 유용하지 않다고 볼 수 있지만,
    이러한 아이템은 사용자에게 시스템에 대한 신뢰를 높일 수 있다.
    • 추천 시스템의 다양한 목표는 서로 상충되는 것이 일반적이다.
  • 신뢰를 측정하는 가장 간단한 방법은 실험 중에 사용자 설문 조사를 실시하는 것이며 일반적으로 오프라인 실험을 통해 신뢰를 측정하는 것은 어렵다.

📖 참신성

참신성은 추천 시스템이 사용자에게 알지 못하거나 이전에 보지 못했던 추천을 제공할 가능성을 평가한다.
  • 참신성을 측정하는 가장 자연스러운 방법은 사용자가 이전에 아이템을 알고 있는지 여부를 명시적으로 묻는 온라인 실험을 통해서다.

📖 의외성

추천 결과에 대해 얼마나 놀라워하는지에 대한 수준으로 판단할 수 있다.
  • 참신함은 사용자가 이전에 알지 못했던 아이템을 추천해야한다.
    의외성은 참신함보다 더 강한 조건이다.

온라인 및 오프라인 방법을 사용해 의외성을 평가한다.

  1. 온라인 방법 : 추천 시스템은 추천이 유용한지 뻔한지에 대한 사용자 피드백을 수집한다.
  2. 오프라인 방법 : 초기의 추천 시스템을 사용해 자동화된 방식으로 추천 결과가 뻔한지에 관한 정보를 생성할 수 있다.
    • 초기의 추천은 일반적으로 콘텐츠 기반 추천 시스템이며 이는 뻔한 아이템을 추천하는 경향이 높다.
    • 그 다음 올바른 초기 추천 시스템이 추천하지 않는 최상위-k에서 추천 아이템의 비율이 결정되며 이 비율은 의외성을 위한 측정값이 된다.
  • 추천 시스템이 뻔하지는 않지만 관련 없는 아이템을 추천할 수 있기 때문에 뻔하지 않은 아이템의 비율을 측정하는 것만으로는 충분하지 않다.
  • 따라서 아이템의 유용성을 항상 의외성에 대한 측정에 포함한다.
  • 의외성정확성을 극대화하려는 즉각적인 목표에 반대하더라도 추천 시스템의 전환율을 향상시키는 데 장기적인 영향을 미친다.

📖 다양성

다양성의 개념은 하나의 추천 결과에서 보여주는 추천 아이템들이 가능한 수준에서 다양해야한다는 의미다.
  • 사용자가 상위 선택을 싫어하면 사용자는 모든 것을 싫어할 가능성이 있다.
  • 더 큰 다양성을 보장하면 종종 추천의 참신하고 의외성을 증가시킬 수 있다.
  • 다양성은 아이템 쌍 사이의 콘텐츠 중심 유사도 측면에서 측정할 수 있으며,
    각 아이템 설명의 벡터 공간 표현은 유사도 계산에 사용한다.
  • 다양성은 종종 정확성 측정 기준의 결과와 매우 다른 결과를 제공한다.

📖 강건성과 안정성

  • 추천 시스템은 추천이 가짜 평점 등록과 같은 공격이 있는 경우 또는 데이터 패턴이 시간이 지나면서 심각하게 변하는 경우에도 안정적이고 강건해야 한다.
  • 일반적으로 일부 사용자는 가짜 평점을 입력해서 큰 이익을 얻을 수 있기 때문에 이에 대처해야한다.

📖 확장성

  • 많은 양의 데이터가 존재할 때 효과적이고 효율적으로 수행할 수 있는 추천 시스템을 설계하는 것이 점차 중요해지고 있다.

시스템의 확장성을 결정하기 위해 다양한 측정 값을 사용한다.

1. 학습 시간 : 모델을 학습시키는 데 필요한 전반적인 시간을 측정 값 중 하나로 사용한다.
2. 예측 시간 : 예측 시간은 사용자가 응답을 받는 대기 시간을 의미하기 때문에 짧아야 한다.
3. 메모리 요구 사항 : 평점 행렬이 크면 전체 행렬을 메인 메모리에 유지하는 것이 어려운 경우가 많다.
  • 확장성의 중요성은 특히 빅데이터 패러다임의 중요성이 커지면서 최근 몇 년 동안 커졌다.

📌 오프라인 추천 평가의 설계 문제

  • 정확도가 크게 과대평가되거나 과소평가되지 않도록 추천 시스템을 설계하는 것이 중요하다.
  • 이를 테면 학습 및 평가 모두에 대해 동일한 평점 데이터를 사용할 수 없다.
  • 평점 행렬은 일반적으로 엔트리-와이즈 패션 방식으로 샘플링 한다.
    즉, 아이템의 일부는 학습에 사용하고 나머지 아이템은 정확성 평가에 사용한다.

데이터를 주로 세 부분으로 나눈다.

1. 학습 데이터 : 학습 모델을 생성하는 데 사용한다.
2. 검증 데이터 : 모델 선택 및 파라미터 조정에 사용한다.
3. 테스트 데이터 : 최종 모델의 정확성을 테스트하는 데 사용한다.

📖 학습 및 테스트 평점 분류

  • 평점 행렬의 원소를 세 부분으로 자동으로 나눌 수 있어야 한다.
  • 홀드아웃 및 교차 검증과 같은 사용 가능한 분할 방법의 대부분은 데이터 세트를 세 부분이 아닌 두 부분으로 나누는 데 사용한다.

1. 홀드 아웃

  • 홀드 아웃 방법에서는 평점 행렬의 아이템 중 일부가 숨겨지고 나머지 아이템은 학습 모델을 생성하는 데 사용한다.

이러한 접근법은 실제 정확도를 과소평가한다.

1. 모든 원소를 학습에 사용하지 않으므로 데이터의 모든 능력을 사용하지 않는다.
2. 홀드 아웃된 원소가 전체 평점 행렬보다 높은 평균 평점을 갖는 경우를 고려해야 한다.

2. 교차 검증

  • 교차 검증 방법에서는 평가 원소는 q개의 동일한 세트로 나눈다.
  • 따라서 S가 평점 행렬 R에서 지정한 항목의 집합이라면, 각 세트의 원소 수에 대한 크기는 |S|/q이다.
  • q개의 세그먼트 중 하나는 테스트에 사용하고 나머지 (q-1)개의 세그먼트는 학습에 사용한다.

📖 분류 설계와 비교

  • 협업 필터링의 분류 설계는 분류에서의 설계와 매우 유사하다.
  • 분류 설계와 한 가지 다른 점은 숨겨진 원소의 성능이 실제 환경에서 시스템의 실제 성능을 반영하지 않는다는 것이다.
  • 일반적으로 숨겨진 평점은 일반적으로 사용자가 선택한 아이템이기 때문이다.
  • 따라서 이러한 아이템은 진짜 누락값과 비교해 평점 값이 높아질 수 있으며 이것은 표본 선정 바이어스의 문제점이다.

📌 오프라인 평가의 정확도 지표

  • 오프라인 평가는 예상 평가 값의 정확도를 측정하거나 추천 순위 정확도를 측정하는 방법이 있다.

📖 평점 예측의 정확도 측정

  • 오프라인 실험에 대한 쳥가 설계가 완료되면 테스트 세트 전체에 걸쳐 정확도를 측정해야 한다.
  • 집합 E는 홀드 아웃 방법에서 홀드 아웃된 원소와 일치하거나,
    교차 검증 동안 크기 |S|/q의 분할 중 하나에 해당할 수 있다.
  • 평균 제곱 오차는 MSE로 표시한다.
    • 명확하게 MSE 값이 작을수록 우수한 성능을 보여준다.
  • 이 값의 제곱근은 평균 제곱근 오차라고 하며 MSE 대신 자주 사용된다.
    • RMSE의 한 가지 특징은 합꼐 내에서 제곱을 해서 큰 오차에 대해서 불균형하게 패널티를 준다.
  • 평균 절대 오차로 알려진 하나의 척도는 불균형적으로 더 큰 오류에 패널티를 주지 않는다.
  • 정규화된 RMSE와 정규화된 MAE와 같은 기타 관련 측정 방법은 비슷한 방법으로 정의된다.
    • RMSE와 MAE의 정규화된 값은 항상 (0 , 1) 범위에 있으므로 직관적으로 해석할 수 있다.
    • 이 값을 사용해 다양한 평가의 다양한 데이터 세트에 대해 특정 알고리듬의 성능을 비교할 수도 있다.

RMSE 대 MAE

  • RMSE
    • RMSE는 오류 값을 제곱하기 때문에 큰 오류 값이나 이상치에 더 큰 영향을 받기 때문에 몇 가지 잘못 예측한 평점은 RMSE 측정 값을 크게 잘못되게 만들 수 있다.
    • 다양한 평점에 걸친 예측의 견고성이 매우 중요한 애플리케이션에서는 RMSE가 더 적절한 방법일 수 있다.
  • MAE
    • MAE는 평가에서 특이치가 중요하지 않을 때 정확성을 더 잘 반영한다.
  • 구체적인 선택은 현재 사용 중인 애플리케이션에 따라 달라진다.

롱테일의 영향력

  • 측정 항목의 한 가지 문제점은 인기 아이템에 대한 평점의 영향을 크게 받는 다는 것이다.
  • 대부분의 아이템은 평점이 거의 없는 반면, 몇 개의 아이템만 많은 평점을 받는다.
  • 불행히도, 롱테일 아이템은 판매자의 대부분의 이익에 기여한다.
  • 로컬 희박성이 크기 때문에 롱테일의 평점 값을 예측하는 것이 훨씬 더 어렵다.
  • 희박한 아이템의 예측 정확도는 일반적으로 인기 아이템의 예측 정확도와 다를 수 있다.
  • 한 가지 방법은 각 아이템과 관련된 모든 숨겨진 평가에 대해 RMSE 또는 MAE를 따로 계산한 다음 다른 아이템에 가중치를 적용해 평균을 구하는 것이다.

📖 상관관계를 통한 순위 평가

  • 가장 일반적인 방법은 순위 상관계수를 사용하는 것이다.
  • 숨겨진 아이템 항목의 실제 순서가 추천 시스템에 의해 예측된 순서와 얼마나 관련이 있는지 측정해야 한다.

가장 일반적으로 사용되는 순위 상관계수는 다음과 같다.

  1. 스피어만 순위 상관계수 : 첫 번째 단계는 추천 시스템 예측과 실측 값에 대해 모든 아이템의 순위를 매기는 것이다.
    • 스피어만 상관계수는 이러한 순위에 적용하는 피어슨 상관계수와 비슷하다.
    • 계산된 값은 항상 (-1 , 1)의 범위 안에 있으며 큰 양수 값이 더 좋은 것이다.
    • 이 접근법의 한 가지 문제점은 현실에서는 같은 아이템에 많은 평점이 포함돼 있기 때문에 무작위로 동점인 아이템을 분리하면 평가할 때 약간의 노이즈를 유발할 수 있다.
    • 이 목적을 위해 동점-보정 스피어만을 사용하며 보정하는 방법은 무작위로 동점인 아이템을 사용하는 것보다 모든 동점인 아이템의 평균 순위를 사용하는 것이다.
    • Ex> {1, 2, 3, 4} 대신 {1.5, .15, 3, 4}로 사용할 수 있다.
  2. 켄달 랭크 상관계수 : 아이템의 각 쌍에 대해 예측한 랭킹과 이 아이템의 실제 랭킹을 비교해 다음 크레딧 C를 계산한다.
    • 그런 다음 사용자 u에 고유한 켄달 순위 상관계수는 모든 쌍의 테스트 아이템에 대해 C(j, k)의 평균 값으로 계산한다.
    • 켄달 순위 상관계수를 이해하는 다른 방법은 다음과 같다.

📖 유용성을 통한 순위 평가

  • 유용성 기반 방법은 추천 시스템의 순위와 함께 실제 평점을 사용한다.
  • 유용성 기반 방법의 전반적인 목표는 고객이 추천 시스템의 순위를 얼마나 유용하게 사용할 수 있는지를 명확하게 정량화한다.
  • 유용성 기반 측정은 최상위 아이템에 더 큰 중요성을 부여함으로써 추천 목록의 유용성을 정량화한다.
  • 감쇠 기반 순위 구성 요소의 논리는 특정 순위는 주로 상위 몇 가지 아이템에 의해 규제되도록 하는 것이며, 결국 사용자는 목록에서 매우 낮은 위치에 있는 아이템을 거의 탐색하지 않는다.
  • 사용자 u에 대한 아이템의 유용성 F(u , j)는 평점 기반 유용성 값과 순위 기반 유용성 값의 곱으로 정의한다.
  • 사용자 u에 고유한 R-score는 아이템의 모든 숨겨진 평점에 대한 F(u , j)의 합계이다.
  • 실제로는 추천 목록의 크기를 L의 최댓값으로 제한하는 경우가 많으며 이에 대해 R-score를 계산할 수 있다.
  • 유용성이 기하급수적으로 감소하는 것은 사용자가 상위 순위 아이템에만 관심이 있고 하위 순위 아이템에는 많은 관심을 기울이지 않는다는 것이다.

뉴스 추천 시스템의 경우 사용자가 여러 아이템을 탐색하기 위해 추천 목록을 아래쪽에 있는 아이템을 확인할 수 있으며, 이런 경우 할인율을 약간 낮게 설정해야한다.

  • 이러한 측정값의 한 예가 할인된 누적 이득(DCG)이다.
    • 여기서 guj는 아이템 j를 소비할 때 사용자 u의 유용성을 나타낸다.
  • 모든 아이템을 사용하지 않고 특정 크기 L의 추천 목록에 대해 할인된 누적 이득을 계산하는 것은 일반적이다.
  • 정규화된 할인 누적 이든(NDCG)은 이상적인 값에 대한 할인된 누적 이득의 비율로 정의한다.

흔히 사용하는 또 다른 측정 방법은 ARHR이다.

  • 이 측정 값은 각각의 (0,1) 값을 갖는 암시적 피드백 데이터 세트를 위해 설계 됐다.
  • 할인율은 R-score 측정 항목만큼 빠르지는 않지만 DCG 보다 빠르다.
  • 평균 상호 히트율(ARHR)의 한 가지 단점은 일반적으로 아이템 집합의 항목 수는 정확히 1이고, 해당하는 아이템의 값이 항상 1일 때 일반적으로 사용한다는 것이다.
  • 전역 ARHR 값은 사용자 m에 대해 이 값의 평균을 계산한다.

📖 수신자 조작 특성을 통한 순위 평가

  • 최종적으로 소비하는 아이템은 실측 양성 또는 참-양성이라고도 한다.
  • 순위 목록에서 추천 아이템의 수를 변경하면 실제로 소비되는 추천 아이템의 비율과 추천 시스템에 의해 포착되는 소비 아이템의 비율 사이의 균형에 직접적인 영향을 미친다.
  • 이 트레이드 오프는 정밀도-재현율 또는 수신자 조작 특성 곡선(ROC)을 사용해
    두 가지 방법으로 측정할 수 있다.
  • 추천 목록의 주어진 크기 t에 대해 정밀도는 실제로 관련성이 있는 것으로 판명된 추천 아이템의 백분율로 정의한다.
  • 재현율은 크기 t 목록에 대해 양성으로 추천된 실측 양성의 백분율로 정의한다.
  • 정밀도와 재현율을 모두 요약한 단일 측정을 만드는 한 가지 방법은 정밀도와 재현율 사이의 조화 평균인 F1-측정 값이 있다.
    • F1(t) 측정 값은 정밀도나 재현율보다 더 나은 정량화를 제공하지만 여전히 추천 목록의 크기 t에 의존하며, 따라서 정밀도와 재현율 사이의 트레이드 오프를 완전히 나타내지 못한다.

ROC 곡선

  • 더욱 직관적인 방법으로 트레이드 오프를 생성하는 두 번째 방법
  • 재현율과 동일한 참 양성율은 크기 t의 추천 목록에 포함된 실측 양성의 백분율로 정의된다.
  • 거짓 양성률 FPR(t)은 추천 목록에 있는 거짓으로 보고된 양성의 백분율이다.
  • ROC 곡선은 X축에 FPR(t)을 그리고 Y축에 TPR(t)을 표시해 정의한다.
  • 정밀도 재현율 곡선은 ROC 곡선만큼 잘 해석되지 않지만, 두 경우 모두 서로 다른 알고리듬 간의 상대적 추세가 동일하다는 것을 쉽게 알 수 있다.
  • 일반적으로 해석 용이성이 크기 때문에 ROC 곡선을 더 자주 사용한다.

📖 어떤 순위 측정 척도가 가장 좋은가?

  • 추천 목록에서 1위와 2위로 순위가 매겨진 두 아이템 간의 상대적 순위는 추천 목록에서 100위와 101위로 순서가 매겨진 두 아이템의 상대적 순위보다 훨씬 중요하다.
  • 이러한 맥락에서, NDCG와 같은 유용성 기반 측정은 순위가 높은 아이템과 낮은 순위 아이템을 구별하기 위해 순위 상관계수 또는 ROC 측정보다 훨씬 효율적이다.

📌 평가 측정 척도의 한계

  • 선택 바이어스로 인해 발생하는 여러 가지 약점이 있다.
  • 특히 사용자가 인기 있는 아이템을 평가하는 경향이 있으므로 평점 행렬에서 누락된 아이템은 랜덤이 아니다.
  • 인기 있는 상품에 대한 평점 분포는 대부분 긴 꼬리의 아이템 분포와 다르다.
  • 이러한 요소는 평가 프로세스에서 바이어스 문제를 일으킨다.

해결책

1. 누락된 평점을 무작위로 선택하지 않고 나중에 평점을 매길 가능성에 따라 테스트 평점을 선택하는 모델을 사용하는 것이다.
2. 학습과 테스트 간에 무작위로 평점을 나누지 않고 테스트 데이터의 일부로 최신 평점을 사용해 시간에 따라 평점을 나누는 것이다.

📖 평가 조작 방지

  • 누락된 평점이 무작위가 아니라 사실은 때때로 테스트 아이템의 사용자-아이템 쌍이 지정된 환경에서 의도하지 않은 조작을 평가하는 것으로 이어질 수 있다.
  • 한 가지 해결책은 테스트 원소의 좌표를 지정하지 않고 모든 원소들을 평가하는 것이다.
profile
연세대학교 컴퓨터과학과 석사 과정

0개의 댓글