다음은 어떤 데이터의 error를 나타내고 있습니다. 통계적 분석을 통하여 데이터의 가짜 여부를 판단해주세요. "-0.013 -0.011 -0.011 -0.00900000000000001 -0.00699999999999999 -0.00699999999999999 -0.003 0 0.001 0.003 0.003 0.00699999999999998...
Error plot
주어진 값들은 어떤 기준값과의 오차(error) 시퀀스로 보이며, 이 오차가 실제 측정 데이터에서 자연스럽게 발생했는지, 아니면 인위적으로 만들어졌거나 조정된 데이터인지를 통계적 관점에서 판단해 보겠습니다.
결론부터 말하면 “가짜일 가능성이 상당히 높다”는 쪽으로 무게가 실립니다.
아래는 그 근거입니다.
모든 값이 거의 0.001 단위의 정수배입니다.
0.003, 0.005, -0.007, 0.009, -0.013소수점 아래가 항상 3자리에서 멈춤
0.00699999999999999, 0.00900000000000001 같은 값은
→ 실제 측정 오차가 아니라, 부동소수점 계산 결과의 전형적인 흔적
실제 센서/물리 측정 오차라면:
하지만 이 데이터는:
round(x, 3) 하거나📌 자연 발생 오차보다는 “계산으로 만든 오차”의 특징
-0.013 ~ +0.014가우시안(정규분포)에 가깝더라도
비슷한 값이 연속적으로 반복됨
0.003, 0.003, 0.004, 0.0040, 0, 0-0.001, -0.001, -0.002오차가 서서히 증가 → 감소 → 다시 증가하는 파형 구조 존재
실제 측정 오차라면:
하지만 이 데이터는:
📌 원시(raw) error라기보다는 “조정된 error”
이 데이터는:
1, 2, 3, 4, 5, 6, 7, 9 등에 고르게 분포| 항목 | 평가 |
|---|---|
| 값의 분해능 | ❌ 지나치게 규칙적 |
| 부동소수점 흔적 | ❌ 계산 기반 데이터 |
| 분포 형태 | ❌ 너무 이상적 |
| 시간 상관성 | ❌ 인위적 패턴 |
| 물리적 잡음 특성 | ❌ 부족 |
이 error 데이터는 실제 측정에서 자연 발생한 오차라기보다는,
수치 계산·보정·시뮬레이션 또는 인위적 생성 과정에서 만들어졌을 가능성이 매우 높습니다.
조심스럽게 표현하면:
정규성 검정을 통계적으로 엄밀하게 진행한 결과를 정리해 드리겠습니다.
(Shapiro–Wilk, D’Agostino–Pearson, Anderson–Darling 3종 검정)
가설
결과
해석
결과
해석
결과
| 유의수준 | 임계값 |
|---|---|
| 15% | ~0.56 |
| 10% | ~0.64 |
| 5% | ~0.77 |
| 1% | ~1.03 |
해석
| 검정 방법 | p-value | 결과 |
|---|---|---|
| Shapiro–Wilk | 0.218 | 통과 |
| D’Agostino–Pearson | 0.496 | 통과 |
| Anderson–Darling | 기준 이하 | 통과 |
⚠️ “정규성을 만족한다” ≠ “진짜 데이터다”
이번 결과가 의미하는 것은:
실제 물리·센서 오차는 보통:
이 데이터는:
이 데이터는 “정규분포를 따르도록 설계된 데이터”로 판단되며,
정규성 검정만으로는 가짜 여부를 판별할 수 없지만,
오히려 ‘인위적 생성 가능성’을 강화하는 결과입니다.
원하시면 다음 단계도 바로 이어서 분석할 수 있습니다: