검색랭킹 모델링이란?
- 일반적으로 텍스트(키워드)의 형태로 유사도가 높은 문서를 찾아 차례로 노출해주는 시스템
기존의 검색랭킹 모델?
- Slope one (Collaborative Filtering)
- 다른 사람들과 다른 아이템에 대한 정보를 이용하여 특정인의 특정아이
템에 대한 정보를 추정
- 아마존의 상품 추천시스템에서 사용
랭킹 모델의 2가지 과정
- Information Retrieval
사용자의 질의와 검색 대상인 컨텐츠 사이의 언어적 통계정보를 이용하여 Relevance를 측정
예) Boolean, TF*IDF Model, Contents based Rank model
- Information Filtering
컨텐츠 및 도메인의 특성을 이용하여 컨텐츠의 quality 측정하고 이를 이용
해 컨텐츠를 순위화
예) PageRank, Snowrank 등
• ad-hoc based Rank model
두가지 모델이 혼용되어 사용되며 이것을 Ranking Model이라고 한다.
검색 랭킹 모델링 최적화 프로세스
1. 검색 시스템 정의
- 서비스 정의 : 필요 고객을 대상으로 한 쇼핑몰 포털
- 서비스 컨텐츠
- 상품 : 상품명, 상품 상세설명, 이미지 라벨, 카테고리명 등
- 비즈니스 로직
- 고객에게 적합한 상품을 랭킹 모델로 추천
2. 검색 시스템 평가
1) 평가 방법
- Precision and Recall (고전적인 평가방법)
- Test Set 구성에 어려움이 있어 실무에 적용하기 어려움
- Precision at top N in Popular Keywords
- 사용자가 최상위 N개 이후의 결과는 보지 않음
- 가장 많은 커버리지를 갖는 테스트 질의 선정
- 사용자 클릭 정보
- 페이지 상에서 발생하는 사용자의 클릭 정보를 활용
-> 사용자의 검색결과 클릭 여부
-> 사용자의 “next page” 클릭 수
-> 사용자가 많이 클릭한 결과의 위치
2) 평가 결과
- Precision at top N 결과
- 100개의 질의어에 대해 5개가 검색결과 없다면?
-> 형태소 사전, 유사어 확장 등의 오류
- 100개중 40개가 검색결과가 없다면?
-> 검색 랭킹 모델이 잘못되어 있음
- 사용자 클릭 정보 결과
- 첫 페이지에서 검색결과 클릭 수가 떨어진다면?
-> 현재 검색 시스템에 문제가 있음
- 고객의 검색 결과 클릭 분포 비교해봤을 때 Top 5~8위 사이의 검색 결과 클릭이 많다면?
-> 검색랭킹이 잘못되어 있음. 기호를 잘 반영을 못하고있음
3. 검색 시스템 분석
- 컨텐츠 특성 분석 : 설문조사, 검색시스템 평가 이용
- 데이터 마이닝을 통한 구매이력 분석 : 기호를 기준으로 세그멘테이션하고, 기호에 대한 가중치 측정
4. 검색 시스템 개선
- 고객의 기호를 반영한 랭킹 모델 구성
- 랭킹 모델을 각 그룹별 고객을 위한 개인화 서비스에 적용
- 모델 튜닝 및 최적화
랭킹 모델링을 위한 도구들
- Search Profile
- 개인별, 그룹별 다른 랭킹 모델을 적용
- Ranking Model Applier
- 수식화된 랭킹 모델을 검색 엔진에 적용하는 도구
- 검색 Simulation Tool
- 질의 입력에서 검색 결과 생성까지의 모든 상황을 모니터링 하기 위한 도구
Reference