모델 성능 지표 분석

HanJu Han·2024년 12월 7일

ML 엔지니어링

목록 보기

4/8

1. 데이터 준비 단계

네이버쇼핑을 예시로 들면, 우선 성능 평가를 위한 데이터셋을 구성합니다.

테스트 데이터 구성

평가 기간: 최근 2주간의 사용자 행동 데이터
데이터 크기: 일평균 100만 세션, 500만 추천 노출, 15만 구매
사용자 세그먼트: 신규/휴면/충성 고객 비율을 실제 서비스 비율과 동일하게 구성 (2:3:5)
상품 분포: 카테고리별 노출 비중을 실제 서비스와 동일하게 맞춤

평가 기준 설정

현재 운영 모델의 성과를 기준값으로 설정:

기준 CTR: 2.8%
기준 전환율: 3.2%
기준 NDCG@5: 0.82
기준 MAP: 0.76

2. 일간 성능 평가 프로세스

아마존의 사례처럼, 매일 아침 6시에 전일 데이터 기반으로 성능을 평가합니다.

기본 지표 평가

전일 추천 노출수: 480만 건
unique 사용자수: 95만 명
총 클릭수: 13.5만 건
실제 구매수: 4.2만 건

정확도 지표 산출

1) 상위 N개 추천의 정확도:

Precision@5: 실제 클릭/구매로 이어진 비율 (목표: 45%)
Recall@10: 사용자가 실제 관심 가진 상품의 포함 비율 (목표: 65%)

2) 순위 기반 평가:

NDCG@5: 추천 순서의 적절성 평가 (목표: 0.80 이상)
MAP: 전체 추천의 평균 정확도 (목표: 0.75 이상)

3. 주간 심층 분석 프로세스

쿠팡의 경우, 매주 월요일에 다음과 같은 심층 분석을 수행합니다:

세그먼트별 성능 분석

1) 고객 유형별 성과:

신규 고객: CTR 2.1%, 전환율 2.5%
휴면 고객: CTR 2.4%, 전환율 2.8%
충성 고객: CTR 3.5%, 전환율 4.2%

2) 상품 특성별 성과:

신상품(7일 이내): CTR 3.8%, 전환율 3.1%
베스트셀러: CTR 4.2%, 전환율 4.5%
프로모션 상품: CTR 4.5%, 전환율 3.8%

편향성 분석

1) 카테고리 편향:

상위 3개 카테고리 추천 비중: 45% (목표: 40% 이하)
롱테일 카테고리 노출 비율: 15% (목표: 20% 이상)

2) 가격 편향:

중간 가격대(2~5만원) 비중: 65%
고가 상품(10만원 이상) 비중: 12%

4. 월간 종합 성능 리뷰

11번가의 사례처럼, 매월 마지막 주에 다음과 같은 종합 검토를 진행합니다:

장기 트렌드 분석

1) 시계열 성능 변화:

CTR 3개월 추세: 2.5% → 2.8% → 3.1%
전환율 3개월 추세: 2.8% → 3.0% → 3.2%

2) 계절성 영향:

작년 동기 대비 성능: CTR +15%, 전환율 +12%
시즌별 성능 변동 패턴 파악

비즈니스 임팩트 분석

1) 매출 기여도:

추천 경유 매출: 전체 매출의 32%
객단가 영향: 추천 구매 시 평균 15% 상승

2) 고객 경험 지표:

재방문율: 추천 클릭 고객 68% 재방문
체류시간: 추천 이용 시 평균 13분 증가

5. 개선 계획 수립

분석 결과를 바탕으로 다음 단계 개선 계획을 수립합니다:

단기 개선 과제

신규 고객 CTR 개선: 첫 방문 시 관심 카테고리 수집 강화
롱테일 노출 확대: 카테고리 가중치 조정

중장기 개선 과제

개인화 강화: 사용자 행동 패턴 기반 동적 가중치 적용
컨텍스트 활용: 시간대/요일/날씨 정보 반영

이러한 체계적인 성능 분석을 통해 추천 시스템의 지속적인 개선이 가능해지며, 각 지표의 변화를 추적하여 선제적인 대응이 가능해집니다.

HanJu Han

시리즈를 기반으로 작성하였습니다.

이전 포스트

온라인/오프라인 모니터링

다음 포스트