온라인/오프라인 모니터링

HanJu Han·2024년 12월 7일

ML 엔지니어링

목록 보기

3/8

1. 온라인 모니터링 (Online Monitoring)

정의:
추천시스템이 운영되는 동안 실시간으로 성능과 사용자 반응을 모니터링하여 문제를 즉시 감지하고 대응하는 활동입니다.

세부 시나리오 및 대응 전략

실시간 성능 모니터링
- 상황:
  사용자가 "스마트폰"을 검색했는데 추천된 제품이 전혀 다른 카테고리(예: 주방용품)로 표시된다.
- 지표:
  - CTR (Click-Through Rate): 추천된 상품 중 클릭된 상품의 비율.
  - Zero Result Rate: 추천 결과가 표시되지 않는 비율.
  - Response Time: 추천 결과가 로드되는 시간.
- 대응:
  1. 추천 알고리즘이 사용하는 입력 데이터(검색 키워드, 사용자 프로필 등)를 실시간 점검.
  2. API 응답 시간이 느리면 시스템 로그 분석으로 병목현상 확인.
  3. 즉각적으로 백업 알고리즘으로 전환(예: 콘텐츠 기반 추천으로 대체).
실시간 에러 감지
- 상황:
  추천 엔진이 과부하로 인해 특정 시간대에 "추천 결과 없음" 오류가 발생.
- 지표:
  - Error Rate: API 호출 중 실패한 비율.
  - Latency: 추천 엔진의 평균 응답 시간.
- 대응:
  1. 알림 시스템 (예: PagerDuty)로 문제 발생 알림.
  2. 스케일링을 통해 서버 리소스를 추가로 확보.
  3. 실시간 캐싱 기술 적용으로 부하 감소.
사용자 행동 기반 A/B 테스트
- 상황:
  추천 알고리즘 A와 B 중 어느 것이 더 나은 사용자 경험을 제공하는지 테스트 중.
- 지표:
  - CTR, Conversion Rate, Dwell Time(사용자가 추천 상품 페이지에서 머무는 시간).
- 대응:
  1. 실시간으로 두 알고리즘의 성능을 비교.
  2. 초기 테스트 결과에 따라 성능이 높은 알고리즘으로 트래픽을 점진적으로 이동.

활용 기술 및 도구:

Prometheus & Grafana: 실시간 메트릭 시각화 및 알림 설정.
ELK Stack (Elasticsearch, Logstash, Kibana): 로그 기반 에러 감지.
A/B Testing Tools: Optimizely, Google Optimize.

2. 오프라인 모니터링 (Offline Monitoring)

정의:
운영 데이터를 기반으로 추천시스템의 장기적인 성능과 데이터 품질을 분석하여 문제를 사전 예방하거나 개선 방안을 마련하는 활동입니다.

세부 시나리오 및 대응 전략

모델 성능 추적 및 재훈련
- 상황:
  새로운 카테고리(예: 전기차 액세서리)가 추가되었지만 기존 추천 모델이 이를 잘 추천하지 못함.
- 지표:
  - RMSE (Root Mean Squared Error): 예측과 실제 간의 오차.
  - Precision@K: 추천된 상위 K개 상품의 정확도.
  - Recall@K: 추천된 상품 중 실제 관련 상품이 포함된 비율.
- 대응:
  1. 신규 카테고리에 대한 데이터 부족 문제를 해결하기 위해 추가 학습 데이터 수집.
  2. 데이터 증강 기법(예: 사용자 리뷰를 텍스트 임베딩으로 변환) 적용.
  3. 모델을 재훈련하여 새로운 상품 추천에 대응.
데이터 품질 관리
- 상황:
  사용자 클릭 로그에서 이상치(예: 동일 사용자가 짧은 시간 동안 수백 번 클릭)가 발견됨.
- 지표:
  - Null/NaN 비율: 결측값 데이터의 비율.
  - Outlier Detection: 비정상적인 행동 패턴 검출.
- 대응:
  1. ETL 파이프라인에서 결측값 처리 로직 개선.
  2. 이상치 필터링 알고리즘(예: Z-Score 기반 필터링) 추가.
  3. 로그 수집 시스템의 정확도와 신뢰성을 점검.
장기 성능 변화 분석
- 상황:
  특정 기간(예: 블랙프라이데이 세일 후) 동안 추천 모델의 성능이 지속적으로 하락.
- 지표:
  - 사용자 유지율(User Retention): 추천 시스템으로 인해 플랫폼에 머무는 사용자 비율.
  - Diversity: 추천 상품의 다양성.
- 대응:
  1. 특정 시즌(세일 시즌, 명절 등)에 맞는 별도의 추천 모델 준비.
  2. 사용자 행동 패턴의 변화(구매 선호도 변화)를 모델에 반영.

활용 기술 및 도구:

Jupyter Notebook: 데이터 분석 및 시각화.
BigQuery / Spark: 대규모 데이터 처리 및 쿼리 실행.
Sklearn / TensorFlow / PyTorch: 모델 성능 평가 및 재훈련.

온라인 vs. 오프라인 비교: 실제 활용

항목	온라인 모니터링	오프라인 모니터링
주요 목적	즉각적인 문제 감지 및 사용자 경험 개선	장기적인 성능 분석 및 시스템 안정화.
반응 속도	실시간(초 단위 혹은 분 단위)	주기적(일 단위, 주 단위)
문제 유형	API 응답 지연, 추천 품질 저하	모델 성능 저하, 데이터 품질 문제
적용 사례	A/B 테스트, 에러 감지	신규 데이터 학습, 모델 재훈련
도구 및 기술	Prometheus, Kibana, A/B 테스트 툴	Jupyter, Spark, ML 라이브러리