독후감 : 빅데이터를 지배하는 통계의 힘

2400·2023년 2월 25일
0

제 1장 : 패스

제 2장 : 패스

제 3장 8,9 챕터 패스

  • 10 챕터 : 60억엔을 버는 비결이 담긴 리포트

DM을 보냈을때 메시지를 수신한 집단이 미수산한 집단에 비해서 매출이 500엔 더 높았다.

  • 하나의 변수 차이에 의하여 매출이 약 30% 더 높은 현상이 확인되었다.
  • 메시지 1개를 보내는 비용이 100엔이라면, 그리고 순 이익률이 20% 넘는다면 메시지를 보내는게 더 이익이라는 결론이 나온다.
  • 잃단 여기서 떠오르는 키워드는 2개이다. 회귀 계수 및 Uplift Modeling.
  • 여기서 Y값이 매출이라면 회귀 계수는 500엔 일 것이다. ( 메시지 수신 피로도를 생각하면 선형 관계는 아니겠지만 )
  • 반응률이 좋은 수신 대상을 선정하는게 Uplift 모델링이다.
  • 우리의 고객은 4종류가 있다는 것에서 출발한다.
    People who will purchase no matter what (sure things)
    뭘 하든 안하든 구매할 사람
    People who will purchase only if they are exposed to an advertisement (persuadables)
    광고를 해야만 구매를 하는 사람
    People who will not purchase no matter what (lost causes)
    광고를 하든 안하든 구매를 안할 사람
    People who will not purchase if they are exposed to an advertisement (sleeping dogs)
    광고를 하면 구매를 안할 사람
  • 만약 예산이 한정되어 있다면 광고를 해야만 구매를 하는 사람에게 집중하는 것이 맞을 것이다.

https://github.com/uber/causalml

  • Uber 인과관계 추론 팀에서 만든 패키지 ( causal ml )

https://arxiv.org/abs/2005.03447

  • Feature Selection Methods for Uplift Modeling and Heterogeneous Treatment Effect

https://sci-hub.ru/10.1007/s10115-011-0434-0

  • Decision trees for uplift modeling with single
    and multiple treatments

Abstract

Most classification approaches aim at achieving high prediction accuracy on a
given dataset.

However, in most practical cases, some action such as mailing an offer or
treating a patient is to be taken on the classified objects, and we should model not the class
probabilities themselves, but instead, the change in class probabilities caused by the action.

The action should then be performed on those objects for which it will be most profitable. This
problem is known as uplift modeling, differential response analysis, or true lift modeling, but
has received very little attention in machine learning literature.

An important modification of the problem involves several possible actions, when for each object, the model must also decide which action should be used in order to maximize profit.

In this paper, we present treebased classifiers designed for uplift modeling in both single and multiple treatment cases.

To this end, we design new splitting criteria and pruning methods.

The experiments confirm the usefulness of the proposed approaches and show significant improvement over previous uplift modeling techniques.

profile
공부용 혹은 정리용 혹은 개인저장용

0개의 댓글