[TIL] 250121

·2025년 1월 21일

TIL

목록 보기
45/88

아티클 스터디
머신러닝 심화 군집화까지 수강 완료
머신러닝 특강 - 분류

오늘 공부한 내용

[ML] 의사결정 나무 Decision Tree
[ML] 랜덤 포레스트 Random Forest
[ML] knn | k nearest neighbor
[ML] 부스팅 알고리즘 | 전체 실습
[ML] K-means clustering | 엘보우 기법 | 실루엣 계수

회고

잘한 점

  • 어제보다는 집중 잘 했다.
  • 머신러닝 심화 강의 얼추 끝낼 수 있었다.

개선점

  • 그래도 더 더 집중해서 계획한 일 더 많이 끝내기

배운 점

  • 머신러닝 심화 강의를 수강하면서 학부 때 공부했던 내용을 다시 복습할 수 있어서 유익했다.
  • RFM 세그먼테이션 실습을 통해 기본적인 데이터 클러스터링 과정을 알아볼 수 있었다.
  • 라이브 특강을 통해서 머신러닝을 이용한 데이터 분석을 진행할 때 유의해야 할 점들을 많이 배울 수 있었다.

아티클 스터디

표본, 실험의 트래픽은 얼마나 모아야 할까?

 A와 B 사이의 차이가 어느 정도 되기를 기대하느냐에 따라 매번 다르다!

why? 동일한 신뢰수준이라도 표본의 크기에 따라 유의미한 결과 여부가 달라질 가능성이 있기 때문

  • 원래 기존 방안(A안)의 고객 전환율이 20%일 때,
  • 대인(B안)이 1%밖에 차이가 나지 않아도 결과가 유의미하려면 각 그룹당 표본이 최소 25,555명 필요
  • 반면 대안(B안)이 5% 차이가 난다면 표본이 1,030명이라도 유의미한 결과를 얻을 수 있다.

즉, 두 방안의 결과가 몇 %정도 차이 날 것이라고 기대하는가? 와 같은 질문.

A/B테스트를 기획하고 설계한 담당자가 추측과 이전의 경험을 바탕으로 결정하는 수밖에 없다.

A/B 테스트 수행 과정에서 주의할 점

  • 표본이 많을수록 A안과 B안의 결과 차이가 작더라도 실험 결과가 통계적으로는 유의미할 수 있다
  • 표본이 작더라도 A안과 B안의 결과 차이가 크면 마찬가지로 통계적으로 유의미할 수 있다

1. 내가 미는 방안이 이길 때까지 기다리기 (무작정 트래픽 더 모아보기)

  • 실험을 진행하는 동안 기다리는 것도 팀의 리소스 소비
  • 다른 실험이 대기 중이라면 리소스, 트래픽 낭비
  • 실험에 노출되는 건 어디까지나 실제 유저들이므로, 실험 기간동안 방문한 유저 중 절반에게는 상대적으로 안 좋은 방안이 계속 노출.

원래 목표인 ‘더 좋은 방안 제공’은 뒷전 + 비즈니스 리소스의 효율적 활용 실패

2. 표본이 일정 수가 되지 않아 통계적으로 유의미한 결과가 확인되기 전임에도내가 미는 방안이 지기 전에 그만두기

  • 의도적인 오류!

3. A안과 B안을 다른 날짜에 시작하기

  • 같은 시간에 실험을 시작해야 결과의 차이가 실험에서 만든 요소에 의한 것인지 다른 이유에 의한 것인지 파악 가능
  • 늦게 시작한 안은 충분한 표본을 모으지 못할 가능성 있음

A/B 테스트의 기본

단순한 비교가 아니라 고객에게 정말로, 확실하게, 유의미하게, 더 나은 방안을 제공하고 이를 통해 서비스의 지표를 개선하고 싶다면, 우리의 진짜 질문과 이를 제대로 구현하고 이해하기 위한 통계 지식, 그리고 이를 바탕으로 한 몇 가지의 주의사항 숙지는 필수!

profile
To Dare is To Do

0개의 댓글