자료수집 중단 시점 결정
- 원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심해야함.
1) 자료수집 중단 시점 결정이란?
자료수집 중단 시점 결정
- 데이터 수집을 시작하기 전 언제 수집을 중단할지 명확히 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어뜨림.

- 샘플 크기에 따른 평균값과 95% 신뢰구간을 나타낸 그래프
- 데이터 수집을 언제 멈출지 결정하는 것은 결과에 영향을 미칠 수 있음.
- 이상적으로는 사전에 정해진 계획에 따라야 함.
2) 자료수집 중단 시점 언제 조심해야하나?
결과를 이미 정해놓고 그에 맞추기 위해 자료수집을 하고자 할 때
- 50명의 데이터를 수집하기로 했으나, 원하는 결과가 나오지 않아 100명까지 추가 수집.
np.random.seed(42)
data = np.random.normal(0, 1, 1000)
sample_sizes = [10, 20, 30, 40, 50, 100, 200, 300, 400, 500]
p_values = []
for size in sample_sizes:
sample = np.random.choice(data, size)
_, p_value = stats.ttest_1samp(sample, 0)
p_values.append(p_value)
plt.plot(sample_sizes, p_values, marker='o')
plt.axhline(y=0.05, color='red', linestyle='dashed', linewidth=1)
plt.title('자료수집 중단 시점에 따른 p-값 변화')
plt.xlabel('샘플 크기')
plt.ylabel('p-값')
plt.show()
