공통의 측정 방법으로 얻은 같은 성질의 값이다.
즉, 똑같은 기준과 도구를 사용해 조사하여 측정 대상마다 결과값이 다르게 나오는 것을 의미한다.
한 번에 몇 개의 변수를 보느냐에 따라 n변수라고 표현한다.
데이터를 좌표 공간으로 생각하면 변수를 차원이라 칭할 수 있다.
1차원은 직선, 2차원은 평면, 3차원은 공간으로 표현할 수 있으나,
3차원 초과로 넘어간 차원은 표현하기 어려워지기 때문에 조심해야 한다.
차원이 많아질수록 데이터 공간이 커져 패턴을 찾기가 어려워지는 것을 말한다.
상술하였듯 3차원이 넘어가면 표현 및 패턴 찾기가 어려워지므로 그 이상으로 차원을 늘리지 않을 수 있도록 변수 조정에 신경 써야 한다.
대략적인 데이터의 경향을 파악할 수 있게 해 주는 값이다.
가로축은 숫자, 세로축은 데이터의 개수(빈도 등)을 표기하는 변수이다.
ex) 주사위 던진 횟수 등
구간폭(범위)에 따라 표현이 달라지므로 적절한 범위를 가로축에 포함하여 사용해야 한다.
ex) 키 분포
가로축에는 각 범주, 세로축에는 범주에 속하는 개수를 표기한다.
ex) 좋아하는 메뉴
수집한 데이터로 계산을 수행하여 얻은 값을 말한다.
데이터 그 자체의 성질을 기술 및 요약하는 통계량을 말한다.
대푯값으로 평균/중앙값/최빈값을 가지며,
데이터 퍼짐 정도를 나타내는 것은 분산/표준편차가 있다.
모든 값을 더한 뒤 값의 개수로 나눈 값이다.
크기 순으로 값을 정렬했을 때 한가운데 위치하는 값이다.
데이터 개수가 홀수라면 정중앙,
짝수라면 정중앙의 두 개의 숫자의 평균이 중앙값이 된다.
데이터 중 가장 자주 나타나는 값이다.
표본의 각 값과 평균이 어느 정도 떨어져 있는지 평가하는 것이다.
데이터의 퍼짐 상태를 정량화하는 역할을 한다.
분산에 제곱근을 취한 값이다.
극단적인 성질 파악 없이 원래 단위와 일치해 정량화된 지표로 알기 쉽게 표현된다.
가진 특징이 분산과 비슷한 경향을 보인다.
💡 분산, 표준편차 특징
(측정값) - (평균) / (데이터 개수) 이므로 항상 0보다 큰 값을 가지며,
모든 값이 같다면 분포가 없는 것과 같으므로 분포가 0이 된다.
또한 데이터 퍼짐 정도가 크다면 분포값이 커진다.
드물게 극단적으로 나타나는 큰 값이나 작은 값이다.
평균값 및 표준편차와 2-3배 차이 나는 형태를 보인다.
평균값은 모든 값을 고려하기 때문에 이상치의 영향을 많이 받으므로,
상대적인 크기인 중앙값이나 빈도가 낮은 최빈값을 사용하는 것이 좋다.

상자와 수염으로 구성돼 있으며 각각 데이터 분포를 특정 짓는 통계량을 나타낸다.
Q1인 1사분위 수는 큰 쪽 부터 세었을 때 1/4 위치에 있는 값이며,
Q3인 3사분위 수는 작은 쪽 부터 세었을 때 1/4 위치에 있는 값을 말한다.
상위 절반과 하위 절반을 나눈 위치의 제 2사분위 수는 중앙값을 지칭한다.
상하위로 길게 늘어진 수염은 상자 길이(Q1 - Q3)의 1.5배를 늘인 범위 안에서의 최대/최소값을 나타낸다.
최대/최소값 내에 포함되지 않는 부분을 이상치라고 하며 동그란 점으로 퍼지게 표현된다.

막대 그래프 높이로 나타내고 표준편차를 평균값에서 아래위로 늘려 표기한다.

히스토그램을 부드럽게 표현한 것이며,
어디쯤에 데이터가 존재하기 쉬운지 추정할 수 있다.

값이 겹치지 않도록 점을 찍어 각 데이터가 어디에 있는지 자세하게 나타낸다.
평균값/중앙값은 알 수 없으나 분포 형태나 자세한 위치 정보를 확인할 수 있다.

평균값/중앙값이 없는 스웜 플롯의 단점을 보완,
통계량 나타내는 박스플롯과 함께 표기해
데이터가 어디에 위치해 있는지 자세하게 나타냄과 동시에 통계량도 확인이 가능하다.
발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현한 것이다.
X와 같이 확률이 달라지는 변수다.
확률변수가 실제로 취하는 값이다.
가로축에 확률변수, 세로축에 발생 가능성을 표기한 분포이다.
이산형일 경우 세로축이 확률 그 자체이며,
연속형일 때는 값에 범위를 두고 구한다.
범주형일 경우 가로축 순서에 의미가 없다.

상대적인 발생 가능성을 말하며, 연속형일 때 사용한다.
범위에 속할 확률을 구하고 싶다면 적분 후 넓이를 구하는 것이 방법이다.
💡 확률분포의 중요성
추론통계는 표본에서 모집단의 성질을 추정하기 때문에 관측과 이해에 어려움이 있다.
현실의 모집단을 수학의 확률분포로 / 표본을 실현값으로 가정해 분석하여
다루기 어려운 대상을 쉬운 대상으로 치환해 추정함으로써 모집단 이해를 쉽게 할 수 있다.
변수가 확률적으로 얼마나 발생하기 쉬운지 평균적인 값으로 나타낸 것이다.
확률이 가중치 역할을 하는 평균을 구하는 것이라 할 수 있다.
이산형일 경우 각 실현값과 실현값이 발생할 확률을 곱하여 더하여 계산하고,
연속형일 경우 실현값 x 와 그에 대응하는 확률밀도를 곱한 후 적분하여 계산한다.
확률분포가 기댓값 주변에 얼마나 퍼져 있는지 나타내는 값이다.
기댓값과 차이를 제곱한 숫자로 판단하며,
이산형일 경우 실현값에서 기댓값을 빼어 제곱한 값과 각 실현값의 확률을 곱하여 계산하고,
연속형일 경우 실현값에서 기댓값을 빼어 제곱한 값과 그에 대응하는 확률밀도를 곱해 적분하여 계산한다.
단순히 분산에 제곱근을 취한 값이다.
💡 분산 표준편차 특징
각 값이 0 이상이어야 하며,
모두 같은 값이 나타나는 경우 퍼짐이 없다는 뜻이므로 0이다.
기댓값에서 떨어진 값이 많을수록 값이 커진다.
💡 왜도와 첨도
- 왜도
분포가 좌우대칭에서 얼마큼 벗어나 있는지를 나타낸다.- 첨도
분포가 얼마나 뾰족한지, 그래프 꼬리가 차지하는 비율의 크기를 나타낸다.
확률변수 2개를 동시에 생각할 때의 확률분포
한쪽이 어떤 값을 취하든 다른 한쪽의 확률은 변하지 않는 독립 관계다.
P(X,Y) = P(X) x P(Y)
두 변수가 동시에 값을 가지는 확률 구조이며, 두 변수 간의 관계 설명이 필요할 때 사용한다.
한쪽 확률변수 Y의 정보가 주어졌을 때 다른 한쪽 확률변수 X의 확률을 말한다.
P(X|Y) = Y는 조건, X는 확률변수, 즉
Y의 정보를 얻으면 X를 알 수 있는 형태다.
독립할 경우에는 P(X|Y) = P(X) 의 관계가 성립한다.

평균 중심으로 좌우가 대칭이 종 모양의 확률분포다.
파라미터 즉 확률분포 및 모델 형태를 결정하는 고정값이 평균과 표준편차로 구성돼 있으며,
두 개의 파라미터로 인해 정규 분포 모양이 달라진다.
데이터 밀집 구조가 평균에서 멀어질수록 극단적인 값일 확률이 낮아진다.
(측정값) - (평균) / (표준편차) 를 이용해 평균을 0, 표준편차를 1로 만드는 것이다.
데이터를 평균을 기준으로 다시 표현하는 방법이며,
본래의 평균 및 표준편차와 상관없이 분포 안에서 어디쯤 위치하는지 알 수 있다.