: 궁극적으로 관심있는 집단, 모집단의 특징을 모수라 함
ex) 인구 총조사
: 모집단에서 특정한 방법을 이용하여 뽑아낸 임의의 집단, 특징들을 통계량이라 함
ex) 미국대선 출구조사


이처럼 편향을 없애기 위한 다양한 표본추출 방법이 있다 링크텍스트

: 데이터가 특정 값 중심으로 흩어진 형태를 나타내는 통계적 개념이며 경험적인 데이터의 형태
1. 이산확률분포
2. 연속확률분포
: 확률 변수가 취할 수 있는 경우가 2가지인 경우 ( ex:동전 던지기, 클릭 등 )
( 확률 : 0과 1사이 값이며 모든 경우 확률의 합은 1
확률 변수 : 변수가 가질 수 있는 경우의 수를 표현하는 방법)


여러 유저가 입장하는 경우는 어떻게 표현할 수 있을까? 이때 등장하는 것이 사건(경우의 수)
베르누이 분포의 n번 확장 버전
ex) 유저 3명이 웹페이지를 방문했을 때 2명이 버튼을 클릭할 경우는

이항분포 표현식

이항분포 수식

3명의 유저가 버튼을 클릭할 확률이 1/2일 때, 2명의 유저가 클릭할 확률은

만약 n이 커지면 어떻게 될까? 자연스럽게 정규분포의 모양과 비슷해짐
일반적으로 np>5 이면서 n(1-p) >5인 경우 정규분포를 따른다고 "경험적"으로 알려짐
이를 수식으로 표현한다면

== 
: 모든 x에 대해서 확률이 동일한 분포

: 평균을 기준으로 좌우 대칭이며, 종 모양으로 봉우리가 1개인 연속확률 분포


왜도 : 확률의 비대칭 정도를 나태나는 측도


매번 다른 측정 값들 (몸무게, 키, 발 사이즈) 등을 데이터를 수집하기보다는 일관된 하나의 분포로 계산하길 원했다 이때 등장한 것이 표준정규분포이고, 통계학자들은 표준정규분포를 만든 뒤 모든 확률에 대해서 계산해놓았음
표준정규분포: $\mu = 0,\sigma = 1 $ 인 정규분포

또한 모든 z 값에 대해서 계산해놓은 표가 존재하는데 이를 표준정규분포표 라고 함
하기 표는 z값의 왼쪽 끝 ( ) 부터 해당하는 z 값까지 "누적된 확률값" 을 제공

✅

: Scipy 는 Science + Python의 의미로 말 그대로 공학, 사회과학 등에 자주 사용하는 기초통계 모듈과 함수를 모아 놓은 라이브러리
scipy
│
├── stats # 통계 분석과 확률 분포 관련 함수 제공
│ ├── norm # 정규분포 관련 함수 (PDF, CDF, 랜덤 샘플링 등)
| |── uniform # 균등분포
| |── bernoulli # 베르누이 분포
| |── binom # 이항분포
│ ├── ttest_ind # 독립 두 표본에 대한 t-검정
│ ├── ttest_rel # 대응표본 t-검정
│ ├── mannwhitneyu # Mann-Whitney U 비모수 검정
│ ├── chi2_contingency # 카이제곱 독립성 검정
│ ├── shapiro # Shapiro-Wilk 정규성 검정
│ ├── kstest # Kolmogorov-Smirnov 검정 (분포 적합성 검정)
│ ├── probplot # Q-Q plot 생성 (정규성 시각화)
│ ├── pearsonr # Pearson 상관계수 계산
│ ├── spearmanr # Spearman 순위 상관계수 계산
│ └── describe # 기술 통계량 제공 (평균, 표준편차 등)