Retrieval 단계에서는 사용자와 아이템의 기본 정보를 사용해 후보 아이템을 선정합니다. 입력 데이터는 일반적으로 다음과 같습니다.
user_123
30
남성
서울
[item_456, item_789, item_101]
[item_456, item_202]
[item_303]
item_456
전자제품
스마트폰 XYZ
1,000,000원
4.5
120
2023-10-05 14:30
모바일
서울 강남구
Ranking 단계에서는 Retrieval 단계에서 선정된 후보 아이템들을 정렬합니다. 입력 데이터는 더 세부적이고 풍부합니다.
user_123
30
남성
서울
[item_456, item_789, item_101]
[item_456, item_202]
[item_303]
전자제품, 의류
500,000원 ~ 1,500,000원
item_456
전자제품
스마트폰 XYZ
1,000,000원
4.5
120
ABC
재고 있음
500
50
0.1
2023-10-05 14:30
모바일
서울 강남구
10% 할인
무료 배송
항목 | Retrieval (후보 생성) | Ranking (랭킹) |
---|---|---|
사용자 데이터 | 기본 프로필, 최근 행동 데이터 | 프로필, 행동 시퀀스, 선호도 |
아이템 데이터 | 기본 메타데이터(카테고리, 가격 등) | 세부 메타데이터, 통계 정보(CTR, 재고 등) |
컨텍스트 데이터 | 기본 정보(시간, 디바이스, 위치) | 세부 정보(이벤트, 프로모션 등) |
데이터 양 | 적음 | 많음 |
데이터 세부성 | 단순함 | 복잡함 |
Two-Tower Model:
[0.1, 0.3, 0.5, ...]
[0.2, 0.4, 0.6, ...]
ANN (Approximate Nearest Neighbor):
[item_456, item_789, item_101, ...]
DIN (Deep Interest Network):
[item_456, item_789, item_101]
→ 사용자의 현재 관심사 반영.GBDT (LightGBM):
[연령=30, 가격=1,000,000원, CTR=0.1, ...]
→ 랭킹 점수 계산.이러한 입력 데이터는 추천 시스템의 성능을 결정하는 중요한 요소로, 데이터의 품질과 양이 추천의 정확성과 개인화에 직접적인 영향을 미칩니다.