Retrieval, Ranking 입력 데이터 예시

HanJu Han·2025년 1월 13일

추천 시스템

목록 보기

40/49

1. Retrieval 단계의 예시 입력 데이터

Retrieval 단계에서는 사용자와 아이템의 기본 정보를 사용해 후보 아이템을 선정합니다. 입력 데이터는 일반적으로 다음과 같습니다.

사용자 데이터 (User Data)

사용자 ID: user_123
사용자 프로필:
- 연령: 30
- 성별: 남성
- 지역: 서울
사용자 행동 데이터:
- 최근 클릭한 아이템 ID: [item_456, item_789, item_101]
- 최근 구매한 아이템 ID: [item_456, item_202]
- 장바구니에 담은 아이템 ID: [item_303]

아이템 데이터 (Item Data)

아이템 ID: item_456
아이템 메타데이터:
- 카테고리: 전자제품
- 제목: 스마트폰 XYZ
- 가격: 1,000,000원
- 평균 평점: 4.5
- 리뷰 수: 120

컨텍스트 데이터 (Context Data)

시간: 2023-10-05 14:30
디바이스: 모바일
위치: 서울 강남구

2. Ranking 단계의 예시 입력 데이터

Ranking 단계에서는 Retrieval 단계에서 선정된 후보 아이템들을 정렬합니다. 입력 데이터는 더 세부적이고 풍부합니다.

사용자 데이터 (User Data)

사용자 ID: user_123
사용자 프로필:
- 연령: 30
- 성별: 남성
- 지역: 서울
사용자 행동 시퀀스:
- 최근 클릭한 아이템 ID: [item_456, item_789, item_101]
- 최근 구매한 아이템 ID: [item_456, item_202]
- 장바구니에 담은 아이템 ID: [item_303]
사용자 선호도:
- 선호 카테고리: 전자제품, 의류
- 선호 가격대: 500,000원 ~ 1,500,000원

아이템 데이터 (Item Data)

아이템 ID: item_456
아이템 메타데이터:
- 카테고리: 전자제품
- 제목: 스마트폰 XYZ
- 가격: 1,000,000원
- 평균 평점: 4.5
- 리뷰 수: 120
- 브랜드: ABC
- 재고 상태: 재고 있음
아이템 통계 정보:
- 일일 클릭 수: 500
- 일일 구매 수: 50
- CTR (Click-Through Rate): 0.1

컨텍스트 데이터 (Context Data)

시간: 2023-10-05 14:30
디바이스: 모바일
위치: 서울 강남구
이벤트 정보:
- 할인 이벤트: 10% 할인
- 프로모션: 무료 배송

Retrieval vs Ranking: 입력 데이터 비교

항목	Retrieval (후보 생성)	Ranking (랭킹)
사용자 데이터	기본 프로필, 최근 행동 데이터	프로필, 행동 시퀀스, 선호도
아이템 데이터	기본 메타데이터(카테고리, 가격 등)	세부 메타데이터, 통계 정보(CTR, 재고 등)
컨텍스트 데이터	기본 정보(시간, 디바이스, 위치)	세부 정보(이벤트, 프로모션 등)
데이터 양	적음	많음
데이터 세부성	단순함	복잡함

예시 입력 데이터의 활용

Retrieval 단계

Two-Tower Model:
- 사용자 데이터와 아이템 데이터를 각각 임베딩합니다.
- 사용자 임베딩: [0.1, 0.3, 0.5, ...]
- 아이템 임베딩: [0.2, 0.4, 0.6, ...]
- 유사도 계산: 내적(dot product) 또는 코사인 유사도.
ANN (Approximate Nearest Neighbor):
- 사용자 임베딩과 가장 유사한 아이템 임베딩을 검색합니다.
- 후보 아이템 선정: [item_456, item_789, item_101, ...]

Ranking 단계

DIN (Deep Interest Network):
- 사용자 행동 시퀀스를 입력받아 관심사를 모델링합니다.
- 예: [item_456, item_789, item_101] → 사용자의 현재 관심사 반영.
GBDT (LightGBM):
- 사용자 프로필, 아이템 메타데이터, 컨텍스트 정보를 피처로 사용합니다.
- 예: [연령=30, 가격=1,000,000원, CTR=0.1, ...] → 랭킹 점수 계산.

결론

Retrieval 단계에서는 사용자와 아이템의 기본 정보를 사용해 후보 아이템을 선정합니다. 입력 데이터는 단순하지만, 임베딩을 통해 효율적으로 처리됩니다.
Ranking 단계에서는 더 세부적이고 풍부한 데이터를 사용해 후보 아이템을 정렬합니다. 입력 데이터는 복잡하며, 다양한 피처와 모델이 활용됩니다.

이러한 입력 데이터는 추천 시스템의 성능을 결정하는 중요한 요소로, 데이터의 품질과 양이 추천의 정확성과 개인화에 직접적인 영향을 미칩니다.

시리즈를 기반으로 작성하였습니다.

이전 포스트

PairwiseHingeLoss

다음 포스트

Retrieval과 Ranking

0개의 댓글