
데이터를 수집할 때 인위적인 개입의 유무에 따라 관찰 연구와 실험 연구로 나눈다.
관찰 연구 Observational study
연구자 혹은 분석가가 직접적으로 개입하지 않고 자연스럽게 발생하는 데이터를 관찰하여 분석하는 연구 설계
예시
- 흡연자와 건강 상태를 비교하는 연구
- 웹사이트에서 사용자들이 자발적으로 클릭한 광고의 효과 분석
특징
- 이미 주어진 데이터로 기술통계를 내거나 확인하는 연구
- 이미 있는 데이터를 후향적(respective)으로 연구
한계
- 이미 획득한 데이터이기 때문에 우리가 관심있는 변수를 변경해서 측정 불가
ex) '당근마켓 뱃지 획득 여부가 앱 사용 잔존율에 좋은 영향을 줄 것이다' 라는 가설을 검정하고 싶을 때, 뱃지 획득 여부 뿐만 아니라 다른 요소가 종속 변수와 독립변수 모두에게 영향을 줄 수 있음. << 교란 변수
교란 변수 Confounding variable
독립 변수와 종속 변수에 모두 영향을 주어 인과관계 해석을 방해하는 변수
대안 1) 인과 추론 Casual Inference
- X와 Y 사이의 인과관계를 밝혀내는 방법
- 관찰된 데이터를 가지고 교란 변수를 통제하는 방법론.
- 서비스에서 유료 마케팅을 진행하니, 자연 유입이 줄고 유료 마케팅 진입이 늘었다. 이때, 유료 마케팅의 유입 효과를 어떻게 정량화할 수 있을까? 원래 자연 유입으로 들어오려던 유저가 아니었을가?

- 우리가 관심있는 종속 변수에 영향을 주는 원인으로 실제 원인과 교란 요인이 섞여 있어 이를 명확히 구분하기 매우 어렵다. 이를 내생성 문제 Endogeneity problem이라고 한다.
대안 2) 실험 연구 Experimental study
실험 연구
실험 대상을 처치에 따라 두 그룹으로 배정하여 둘 사이의 결과를 비교하는 연구
- 실험 연구가 중요한 이유는 모든 변수를 통제하고 우리가 원하는 개입의 영향을 분석할 수 있기 때문
예시
- 임상실험에서 고혈압 약제를 투여한 그룹과 플라시보 약제를 투여한 그룹 간의 혈압 개선 연구
- 웹사이트 A/B 테스트에서 두 가지 페이지를 무작위로 보여주고 클릭율을 비교하는 연구

- Randomized Control Trial (RCT) 중요.
특징
- 나머지 모든 변수를 통제하고 처치(독립변수)로 인한 결과(종속변수)에 관심을 둠.
- 데이터를 전향적(prospective)으로 수집하여 연구
용어
- 처리 Treatment: 어떤 대상에 주어지는 환경이나 조건 (약, 가격, 이벤트 등)
- 처리군 Treatment Group: 특정 처리에 노출된 대상들의 집단
- 대조군 Control Group: 어떤 처리도 하지 않은 대상들의 집단
- 임의화 Randomization: 처치를 적용할 대상을 임의로 결정하는 과정
- 대상 Subject: 처리를 적용할 개체
무작위 대조 실험 Randomized Controlled Trial
- 무작위로 표본을 나누어 하나의 집단은 처리군으로, 다른 하나의 집단은 대조군으로 분류하여 진행하는 실험
- 대표적인 실험 연구의 한 예

- 이를 차용해 온라인에 적용하면 온라인 통제 실험 Online Controlled Experiment

관찰 연구와 실험 연구의 차이
| 관찰 연구 | 무작위 대조 실험(RCT) |
|---|
| 개입 여부 | 연구자가 직접 개입하지 않고 자연스러운 데이터 관찰 | 대조군과 실험군을 무작위로 할당하여 실험군에 개입 |
| 인과 관계 규명 | 어려움 | 가능 |
| 교란 변수 통제 | 통제 어려움. PSM 등을 통한 제어 방법 고민 | 무작위 할당으로 통제 가능 |
| 윤리 문제 | 거의 없음 | 발생할 수 있음 (ex. 신약 개발) |
| 실행 비용 | 비용이 적고 시간 덜 소요 | 시간과 비용 많이 듦 |
| 적용 예시 | 흡연이 건강에 미치는 영향 | 약물 임상 실험, 온라인 통제 실험 |
