Retrieval 단계에서는 사용자와 아이템의 기본 정보를 사용해 후보 아이템을 선정합니다. 입력 데이터는 일반적으로 다음과 같습니다.
user_12330남성서울[item_456, item_789, item_101][item_456, item_202][item_303]item_456전자제품스마트폰 XYZ1,000,000원4.51202023-10-05 14:30모바일서울 강남구Ranking 단계에서는 Retrieval 단계에서 선정된 후보 아이템들을 정렬합니다. 입력 데이터는 더 세부적이고 풍부합니다.
user_12330남성서울[item_456, item_789, item_101][item_456, item_202][item_303]전자제품, 의류500,000원 ~ 1,500,000원item_456전자제품스마트폰 XYZ1,000,000원4.5120ABC재고 있음500500.12023-10-05 14:30모바일서울 강남구10% 할인무료 배송| 항목 | Retrieval (후보 생성) | Ranking (랭킹) |
|---|---|---|
| 사용자 데이터 | 기본 프로필, 최근 행동 데이터 | 프로필, 행동 시퀀스, 선호도 |
| 아이템 데이터 | 기본 메타데이터(카테고리, 가격 등) | 세부 메타데이터, 통계 정보(CTR, 재고 등) |
| 컨텍스트 데이터 | 기본 정보(시간, 디바이스, 위치) | 세부 정보(이벤트, 프로모션 등) |
| 데이터 양 | 적음 | 많음 |
| 데이터 세부성 | 단순함 | 복잡함 |
Two-Tower Model:
[0.1, 0.3, 0.5, ...][0.2, 0.4, 0.6, ...]ANN (Approximate Nearest Neighbor):
[item_456, item_789, item_101, ...]DIN (Deep Interest Network):
[item_456, item_789, item_101] → 사용자의 현재 관심사 반영.GBDT (LightGBM):
[연령=30, 가격=1,000,000원, CTR=0.1, ...] → 랭킹 점수 계산.이러한 입력 데이터는 추천 시스템의 성능을 결정하는 중요한 요소로, 데이터의 품질과 양이 추천의 정확성과 개인화에 직접적인 영향을 미칩니다.