- 방대한 데이터의 특징을 대표하는 주요 값
- 어떤 대표값을 사용할지에 따라 결론이 완전히 달라짐
- 보고서 작성 시 대표값 세 개를 모두 제시해야 함
- 평균, 중앙값, 최빈값이 모두 같을 때 이상치 데이터가 들어오면 평균만 영향을 받음
정의
특징
예시
정의
특징
예시
정의
특징
예시
💡 왜 필요한가?
평균만 보면 데이터의 흩어짐을 알 수 없음
➡️ 평균은 같지만 점수 분포에 엄청난 차이가 있음
정의
특징
데이터가 평균보다 크면 +, 평균보다 작으면 -
💡 편차의 합이 0인 이유?
평균은 데이터들의 무게중심(균형점)으로
- 평균보다 작은 값들이 만든 음수(-) 편차와
- 평균보다 큰 값들이 만든 양수(+) 편차가
서로 완벽히 상쇄됨
🚨 따라서 편차만으로는 흩어짐을 측정할 수 없음(편차를 합치면 0이되어 흩어짐이 사라져버림)
정의
특징
계산
(편차: 각 데이터 - 평균)²의 합 / 데이터의 개수
💡 편차를 제곱하는 이유
편차의 음수값을 양수로 바꾸기 위해
절대값 대신 제곱을 쓰는 이유 → 이상치에 큰 벌칙을 주기 위해
평균에서 멀리 떨어진 값일수록 차이가 더 커짐(추후 머신러닝에서 사용)
- 작은 실수 → 매우 가볍게 혼남
- 큰 실수 → 매우 크게 혼남(제곱 효과: 혼나지 않기 위해 주의함)
정의
💡 분산에 루트를 씌우는 이유
제곱으로 인해 뻥튀기된 단위를 다시 돌려놓기 위해
특징
계산
표준편차 = √분산
분산 = (표준편차)²
예시
보고서 작성 시

데이터 전처리/EDA 단계에서 착시를 피하기 위해 알아두면 좋음
+a: 평균만 이동, σ는 그대로
원래 데이터 모두에 임의의 값을 더하거나 뺌
기존 데이터 [2, 4, 6] 평균 = 4, σ ≈ 1.63
10을 더함 [12, 14, 16] 평균 = 14, σ ≈ 1.63
값의 위치만 달라질 뿐, 평균과 표준편차는 변하지 않음
💡 위치이동을 하는 이유
- 민생 지원금 받았을 때
- 모든 국민 소득에 15만원씩 더함
xk: 평균과 σ모두 up 또는 down
원래 데이터 모두에 임의의 값을 곱하거나 나눔
기존 데이터 [2, 4, 6] 평균 = 4, σ ≈ 1.63
2를 곱함 [4, 8, 12] 평균 = 8, σ ≈ 3.27
평균과 표준편차 모두 2배씩 확대됨
💡 스케일 변화를 하는 이유
- 서로 다른 기준을 통일하고자 할 때 사용
- 학교별 시험 점수 단위 통일 (100점 만점 vs 160점 만점)
- 키와 몸무게 단위 통일 (cm vs kg)
화면을 드래그해서 정답 확인
🐷 몸무게
지인들의 10명의 평균 몸무게가 50kg일때, 대한민국 국민의 평균 몸무게도 50kg일까?
→ 정답: x
💸 연봉
A사의 평균 연봉이 1억일때, 곧 입사할 내 연봉도 1억 근처일까?
→ 정답: x
💳 제품
애플 매장에서 1인 평균 결제 금액이 500만 원일때, 500만 원짜리 프로모션을 기획 해야할까?
→ 정답: x