1) 대략적인 데이터 정리와 확인
2) 최대화 혹은 최소화해야 할 아웃컴이 무엇인지 정함
3) 그 이외의 모든 항목을 설명변수의 후보로 놓고 다중회귀분석 or 로지스틱 회귀분석 (설명변수가 지나치게 많은 상황 방지를 위해 변수 선택법 사용)
1) '이익을 올려주는 아이디어'를 한번에 발견! > GOOD
2) '여러 설명변수와 아웃컴의 관련성이 나타나지만 석연치 않음' > 설명변수의 선별 선택
💡 [ 설명변수의 선별 선택 ]
아웃컴과의 관련성이 너무 당연한 듯 보이는 설명변수는 p-값이 아무리 작아도 제외 (ex. 구매상품이 증가할 때마다 구매금액이 증가)
당연한 설명변수가 포함되어 있을 땐, 다른 설명변수에 관한 회귀계수를 해당 설명변수의 회귀계수와 비교하는 것을 유의
특정한 회귀계수의 해석을 어렵게 만드는 설명변수는 제외
(ex. '다른 설명변수의 값이 동일하다는 가정하에서')
설명변수의 취급방법을 바꾸는 것이 나을 때도 존재
(ex. 양적변수 : 나이 > 질적변수 : 세대)
꼭 포함되어야 하는 설명변수가 자동 변수선택 과정에서 삭제되었을 경우에는, 강제로라도 그 설명변수를 포함
설명변수 선별선택과 결과 해석 과정에서 '인자분석'과 '군집분석' 사용하면 결과에 도움이 됨
💡 [ 분석결과에서 아이디어를 찾아내는 방법 ]
이익창출을 위한 아이디어
1) 아웃컴과 관련된 설명변수가 광고나 상품생산, 연수 등에 의해 '조정'이 가능하다면 그 설명변수를 조정하는 것이 이익을 낳는 아이디어
2) 현시점에서 '신뢰할 수 있다'고 생각할 만한 목표로 설정한 시장의 고객은 몇사람이나 되는지 파악하고 설명변수를 조정
3) '조정'도 '재배치'도 불가능한 설명변수는 다른 관점 활용
'신뢰할 수 있으므로 상품을 많이 샀다'인지
'상품을 많이 샀기 때문에 신뢰가 생겨난 것'인지는
회귀계수나 p값을 봐도 알 수 없음!
💥'상관'과 '인과'를 혼동해서는 안됨
[ A/B 테스트 ]
1) 일정한 인원수 이상을 모아 반반씩 나눔
2) 나눈 그룹에 다른 방법 시행
3) A그룹과 B그룹 아웃컴 비교
1) 생존분석
'언제 탈퇴했는가' 와 같은 생존시간을 분석
콕스회귀분석
- 분석환자의 생존시간을 분석하기 위해 생긴 방법
- 오즈비가 아닌 하자드비(hazard ratio)라는 지표를 활용
- '일정 시간당 몇 배의 확률로 일어나기 쉬운가/어려운가'라는 결과
2) 시계열 분석
같은 사람이나 물건을 대상으로 여러 차례 얻어낸 데이터를 '시계열 데이터'
'과거의 정보와 다음 주 매출의 관계성은 어떠한가'를 생각하는 것
자기상관
3) 경시데이터 분석
다른 설명변수와의 관계성을 분석하는 방법
'사람마다 제각각'이라는 요인을 일반적인 회귀계수로 표현
▶ 1명을 기준으로 '인원수-1'개분의 더미변수 필요
혼합효과모형 사용
잠재적 인자 간의 관계성이 중요
구조방정식 모형
항목반응이론
커널 k-means 방법
'임의화 비교실험이 불가능한 상황에서 어떻게 착오없이 검정하는가'
DM 발송여부에 따른 매출 차이 확인