데이터 분석 71일
예: 온라인 수업 실험에서 자기주도적인 학생들만 참여하면 결과가 왜곡될 수 있음
→ 무작위 배정을 통해 이 문제를 방지
예: 온라인 수업을 듣는 학생들이 사실은 시간 여유가 더 없거나 성적이 낮을 수 있음
→ 이런 요인이 결과에 영향을 미치지 않도록 설계된 것이 무작위 배정
온라인 수업의 효과를 알아보는 실험에서, 온라인 수업을 듣는 학생들이 대면 수업을 들을 여유가 없는 낮은 수준의 학생일 수 있다는 걱정은 하지 않아도 됨
랜덤 실험 설계 자체가 이러한 차이를 없애기 위해 만들어졌기 때문이다.
그 결과, 실험군과 대조군 학생들은 기본적으로 비슷한 특성을 가진 집단이 되었고,
점수 차이는 학습 방식(온라인 vs 대면)의 효과로 설명할 수 있게 된다.
실험에서는 보통 처치 효과를 추정하기 위해 두 그룹의 평균 차이를 계산한다.
하지만 이 평균 차이가 우연인지 실제 효과인지 판단하려면, 결과의 불확실성을 이해하는 것이 중요합니다.
⭐ 바로 여기서 표준 오차(Standard Error)가 등장!!
표준 오차는 우리가 계산한 평균 차이가 얼마나 신뢰할 수 있는지를 보여주는 지표이다.

1) 샘플 크기가 클수록 결과가 더 신뢰 가능
2) 샘플 간의 차이를 비교할 때 사용
✅ 실습 예시 (Python 코드)
import pandas as pd
import numpy as np
data = pd.read_csv("online_classroom.csv")
online = data.query("format_ol==1")["falsexam"]
face_to_face = data.query("format_ol==0 & format_blended==0")["falsexam"]
def se(y: pd.Series):
return y.std() / np.sqrt(len(y))
print("대면 학습 그룹의 SE:", se(face_to_face)) # 0.8724
print("온라인 학습 그룹의 SE:", se(online)) # 1.537
결과: 
⭐ 다음 개념으로 연결: 신뢰 구간 (Confidence Interval)
표준 오차는 신뢰 구간을 계산하는 핵심 요소
예: 평균 ± 1.96 × SE → 95% 신뢰 구간
ex) “이 그룹의 평균 점수는 73.6점이고, 진짜 평균은 95% 확률로 70.6점에서 76.6점 사이에 있을 거예거다" 라고 말할 수 있는 게 바로 신뢰 구간이다.
✅ 결과의 불확실성을 숫자로 보여준다
✅ 단순한 평균보다 더 신뢰할 수 있음
신뢰 구간=평균±1.96×표준 오차(SE)
(1.96은 95% 신뢰 수준일 때 쓰는 숫자)
📌 정리
| 항목 | 설명 |
|---|---|
| A/B 테스트 | - 대조군 vs 실험군을 비교하여 변화의 영향을 측정하는 실험 - 랜덤화를 통해 외부 요인의 영향 제거 및 공정한 비교 가능성 확보 |
| 표준 오차 (SE) | - 실험 데이터의 신뢰도를 나타내는 지표 - 샘플 크기가 클수록 SE는 작아지고 평균 추정치의 정확도는 높아짐 |
| 신뢰 구간 (CI) | - 실험 결과의 불확실성을 수치로 표현한 범위 - 95% 신뢰 구간: 동일 실험을 반복할 경우, 모집단 평균이 그 구간에 포함될 확률이 95% - 예: 대면 학습 CI (76.83, 80.25), 온라인 학습 CI (70.63, 76.65) → 구간이 겹치지 않으므로 대면 학습 점수가 유의미하게 높다고 판단 |
| 결론 | - 랜덤화와 통계적 지표(SE, CI)를 통해 실험 결과의 신뢰성과 인과 관계를 명확히 평가할 수 있음 |