

표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
평균은 모집단으로 부터 관측된 n개의 x가 주어 졌을때 아래와 같이 정의됨
평균은 표본으로 추출된 표본 평균(sample mean, 로 표기)이라고하며, 모집단의 평균을 모평균이라고 하며 라고 표기함
평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두개의 값을 산술 평균한 값임
이상치가 포함된 데이터에 대해서 사용함
관측치를 크기순으로 나열 했을 때, 중앙값 m은

데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음
데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도 임
데이터의 각각의 값들의 편차 제곱합으로 계산하며 수식은 아래와 같음
표본 분산 :

크기가 n인 모집단의 평균을 라고 할 때 모평균과 모분산은 다음과 같음
모분산 :
모표준편차 :

| 시각화 기법 | 특징 및 용도 |
|---|---|
| 히스토그램 | 데이터의 빈도나 분포 밀도 파악에 유용. 왜도(skewness), 첨도(kurtosis), 모드 수 등을 직관적으로 확인 가능. |
| 박스플롯 | 중앙값, 사분위수, 이상치 등을 요약하여 보여주는 요약형 시각화. 여러 그룹 간 분포 비교에 최적. |
| 바이올린 플롯 | 히스토그램의 밀도 정보를 포함하면서 박스플롯의 요약 정보를 함께 제공. 분포 형태 분석에 탁월, 모드 발견에 도움. |

모든 경우의 수에 대한 특정 사건이 발생하는 비율이다. 대체로 수학 외에서는, 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나 옛날처럼 할·푼·리로 나타내기도 한다. (출처: 나무위키)
표본 공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
동전 던지기의 경우 S = {앞면, 뒷면} , 주사위던지기 S = {1,2,3,4,5,6}
사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일때 표본 공간의 모든 원소들이 일어날 확률이 같으면
표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현함
확률 변수의 평균 : 기대값 이라고 표현하기도 하며, 수식은 아래와 같음
확률 변수의 분산
정규분포는 통계학과 데이터 분석에서 가장 중요한 확률분포 중 하나입니다.
이 분포는 평균(μ)을 중심으로 좌우가 대칭인 종 모양(Bell curve)을 띠며, 많은 자연 현상과 측정 데이터가 이 분포를 따르는 경향이 있습니다.