검색 모델 평가 지표 종류

JunMyung Lee·2021년 8월 25일
0

개발지식

목록 보기
6/14

리뷰회의의 주제로 선정되었던 검색모델을 평가하는 과정에 대해서 정리하고자 한다.

CG (Cumulative Gain)

상위 p개의 추천 결과들의 관련성(Relevence)를 합한 누적값, 계산시 검색결과 목록에서의 순위를 포함하지 않는다.

특정 키워드에 대한 결과값에 Relevence를 부여하여 값을 계산한다. 사용도가 적으며 CG는 상위 p개의 추천 결과들을 모두 동일한 비중으로 계산한다.

그림에서의 CG값은 16이다.

DCG (Discounted Cumulative Gain)

기존 CG에서 랭킹 순서에 따라 점점 비중을 줄이면서 관련도를 계산하는 방법이다.


Standard는 log(랭킹값+1) 값을 Relevence값으로 나눈다.


Industry는 log(랭킹값+1) 값을 Relevence의 제곱수로 나눈다.

Standard에서의 1,2위와 Industry에서의 1,2위는 나온 결과값의 차이로 인하여 순위가 변경된다.
즉, 랭킹을 반영하기는 하지만 랭킹 반영 비율은 줄이고 Relevence의 비중을 크게 늘리는것이 Industry
랭킹 반영의 비율이 결과에 큰 영향을 주는것이 Standard

nDCG (Normalized Discounted Cumulative Gain)

추천시스템, 정보검색, 랭킹 추천 분야에 많이 쓰이는 지표. 상위의 랭킹 리스트가 하위 랭킹 리스트보다 확연하게 중요한 도메인에서는 유용한 평가 기준이된다. (검색결과가 많을 때)
DCG의 결과를 IDCG로 나눈값을 nDCG라고 한다. DCG-Industry와 같이 Relevence와 랭킹값을 이요하지만 계산시 Relevence로 정렬을 수행하고 평가하기에 높은 Relevence의 값이 상위 랭킹이 되고 결과값이 더욱 커지게 된다.

MAP (Mean Average Precision)

상위 N개까지의 정밀도(Percision)을 구하여 관련된 컨텐츠의 개수를 점수에 반영할 수 있는 장점이 있지만, DCG나 nDCG처럼 사용자의 관련성(Relevence)의 다형성을 가질 수 없는 단점이 존재한다.

무신사에서 검색품질을 높이기 위한 지표방식으로 알고있다. 특정 검색어에 대해 사용자가 어떠한 물품을 클릭하였는지에 대해 상품 정밀도를 구한다. (여기서는 클릭이지만 예시일 뿐 실제로는 정밀도를 구하는 방식이 여러가지)

Dog로 검색을 하였을 경우 각 사용자의 AP값을 구한 후 사용자의 수로 나눈값이 MAP 지표값이 된다.

각 사용자 별로
(순서1 / 1번째 랭킹 순위 + 순서2 / 2번째 랭킹 순위 ...) / 순서 개수 = AP

각 사용자 별 AP의 평균값이 MAP 지표

profile
11년차 검색개발자 입니다. 여러 지식과 함께 실제 서비스를 운영 하면서 발생한 이슈에 대해서 정리하고 공유하고자 합니다.

0개의 댓글