데이터의 생김새에 따라 시각화, 해석, 통계모델 결정에 중요한 역할을 한다.


# 평균
df['점수'].mean()
# 중앙값
df['점수'].median()
# 최빈값
df['점수'].mode()
: 두 그래프의 평균이 같다. 하지만 분포가 다르다.
편차(deviation) : 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져있어?
- A 학생의 영어점수: 30점
- B 학생의 영어점수: 70점
- C 학생의 영어점수: 80점
- A,B,C 학생의 평균 영어점수: 60점
> A 학생의 편차: -30
> B 학생의 편차: +10
> C 학생의 편차: +20
학생 전체의 편차를 나타내기 위해 각 학생들의 편차를 모두 더하게 되면 0이 나오게 됩니다.
따라서 편차로는 반 전체의 점수 분포를 정확히 알 수가 없기에 나온 개념이 분산입니다.
분산(variance) : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
- A 학생의 편차 제곱: (-30)^2 = 900
- B 학생의 편차 제곱: (+10)^2 = 100
- C 학생의 편차 제곱: (+20)^2 = 400
> 편차 제곱합: 1400
> 편차 제곱합의 평균(분산): 1400/3 = 466
분산은 466이 도출되었습니다. 그러나 점수라는 값에 제곱이 들어가며(점수에 제곱..!)
그 단위가 달라지게되었어요. 실제 데이터가 어느정도로 차이가 있는 지 알기 어렵게 되었습니다.
이를 해결하기 위해 도입된 개념이 표준편차입니다.
표준편차 : 분산에 제곱근을 씌워준 값. (=원래 단위로 되돌리기 = standard deviation(σ))
- 분산: 466 - 분산의 제곱근 = 표준편차 = 약 21.6 이 되겠습니다.= 즉, 반 전체의 영어점수가 약 20만큼 퍼져있다.(분산되어 있다.)라고 해석할 수 있다.
모집단 : 어떤 데이터 집합을 구성하는 전체 대상
표본 : 모집단 중 일부. 모집단의 부분집합

표본분포 : 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
표준오차 : 표본의 표준편차. = 표본평균의 평균과 모평균의 차이
중심 극한 정리 : 표본들을 뽑아서 평균내어 모은게 종모양의 정규분포의 형태를 띄는 원리


*x는 평균, y는 확률
표본을 선정할 때 그 경우의 수는 매우 많을 것이고 → 중심극한정리에 따라(경우의 수를 평균내어 모아보면) 다음과 같은 종 모양의 분포를 띄게 되는데, 이를 정규분포라고 한다.
- 분포는 좌우 대칭. 평균치에서 가장 그 확률이 높다.
- 곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다. (동전 앞면 확률 1/2 + 뒷면 확률 1/2 = 1)
- 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다.
- 표준정규분포 : 평균 0, 분산 1을 가지는 경우. (그림의 붉은색 그래프)

- 데이터 분석 시 표준화가 필요한 경우 : 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우.
ex)
- 최근 일주이 접속일수의 1과 결제금액의 1은 같은 의미가 아니다!
- 근데 파이썬이 해당 값의 의미를 같게 받아들이고 처리할 수 있다!
- 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있다! (ex. 100억은 100억만큼 기여도가 있어!)
- 그래서 반드시 표준화를 해야한다!
'scipy'를 활용하여 95%와 99%의 신뢰구간을 확인하면,
= 95%보다 99%의 범위가 더 넓다. 왜냐하면, 그만큼 확률이 높기 때문에 더 큰 범위를 말하는 거다.
- 해당 데이터에서는 데이터의 양이 적기때문에 모집단 전체를 표본으로 잡았다.