[zero-base/] DS Part 7. 통계기본 - 45일차 스터디 노트

손윤재·2024년 2월 5일

Statistics 스터디 노트 제로베이스 DS 22기 통계

제로베이스 DS 22기

목록 보기

46/55

기초 통계량

통계량(Statistic)은 표본으로 산출한 값으로
통계량을 통해 표본 데이터가 갖는 특성을 이해할 수 있다.

🔰 중심경향치

표본데이터를 이해하기 위한 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 한다.
대표적인 중심경향치는 평균(mean)이며, 중앙값(median), 최빈값(mode), 절사 평균 등이 있다.

❕ 평균

모평균, $\mu$ : 모집단의 평균
표본 평균(sample mean, $\bar X$ ) : 모집단으로 부터 표본을 추출된 $n$ 개의 평균

$~~~~~~~~~~\bar X = \cfrac{x_1+x_2+ \cdots +x_n}{n}=\cfrac{1}{n} \displaystyle\sum_{i=1}^n x_i$

❕ 중앙값

표본으로 부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값을 의미한다.
관측치가 짝수일 경우 가운데 두개의 값을 산술 평균한 값이 된다.
이상치가 포함된 데이터일 때 평균대신 사용될 수 있다.

❕ 최빈값

관측치 중에서 가장 많이 관측되는 값이다.
옷사이즈와 같이 명목형 데이터일 경우에 사용될 수 있다.

🔰 산포도

표본 데이터가 어떻게 흩어져 있는지를 확인하기 위한 지표이다.
데이터의 산포도를 나타내는 측도로는 범위(Range), 사분위수(Quartile), 분산(Variance), 표준편차(Standard Deviation), 변동계수(Coefficient of Variation) 등이 있다.

❕ 범위

데이터의 최대값과 최소값의 차이를 의미한다.

❕ 사분위수

전체 데이터를 오름차순으로 정렬하여 4등분 했을 때,
첫 번째를 제1사분위수(Q1)
두 번째를 제2사분위수(Q2)
세 번쨰를 제3사분위수(Q3)라고 한다.
사분위수간 범위(InterQuartile Range, IQR)

$~~~~~~~~~~~~~~~~~~\boxed{IQR = Q3 - Q1}$

❕ 백분위수

전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 의미한다.
제 $p$ 백분위수는 $~p$ %에 위치한 자료 값을 말한다.

❕ 분산

데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도이다.
데이터 각각의 값들의 편차 제곱합으로 계산한다.
표본분산 : $~s^2 = \cfrac{1}{n-1} \displaystyle \sum_{i=1}^n(x_i- \bar x)^2$
크기가 $N$ 인 모집단의 평균이 $\mu$ 일 때,
모분산 : $~ \sigma^2 = \cfrac{1}{N} \displaystyle \sum_{i=1}^N(x_i- \mu)^2$

❕ 표준편차

분산의 제곱근으로 정의한다.
표본 표준편차 : $~ s=\sqrt{s^2}$
모표준편차 : $~ \sigma = \sqrt{\sigma^2}$

❕ 변동계수, CV

평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용한다.
표본의 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교할 때 사용된다.
변동계수는 표준편차를 평균으로 나누어 산출한다.
$~~~~~~~~~~ cv = \cfrac{s}{\bar x}$

확률

어떤 시행에서 사건 A가 일어날 가능성을 수로 나타낸 것으로,
모든 경우의 수에 대한 특정 사건이 발생하는 0과 1사이 비율이다.

수학적 확률
- 표본 공간 $(S)$ 가 유한집합일 때 표본 공간의 모든 원소들이 일어날 확률이 같으면, 즉 표본공간이 $S$ 인 어떤 시행에서 각 결과가 일어날 가능성이 모두 같은 정도로 기대될 때,
  표본공간 $S$ 에서 사건 $A$ 가 일어날 수학적 확률은
  
  $~ P(A) = \cfrac{~사건~A가~일어날~경우의~수~}{표본공간~S의~원소의~수}= \cfrac{n(A)}{~n(S)~}$
- ex.
  - 주사위를 던져서 6이 나올 확률 $~\Rightarrow ~ \frac{1}{6}$
  - 트럼프 카드 52장 중 A가 나올 확률
  - 로또 1등에 당첨될 확률
통계적 확률
- 어떤 시행을 $N$ 번 반복했을 때, 사건 A에 해당하는 결과가 $r$ 번 일어난 경우를 확률로 표현하면 $~\cfrac{r}{~N~}$ 이고, 이를 사건 A가 일어날 상대도수라고 한다.
  N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값 $\lim\limits_{N\rarr\infty}\cfrac{r}{~N~}$ 을 사건 A의 통계적 확률 또는 경험적 확률이라고 한다.
- 시행 횟수가 충분히 클 때, 통계적 확률은 수학적 확률에 가까워진다.
- ex.
  - 타자가 타석에서 안타를 칠 확률
  - 공정에서 제품이 정상일 확률(수율)

🔰 확률의 성질

❕ 확률의 기본성질

표본공간이 $S$ 인 어떤 시행에서

임의의 사건 A에 대하여 $~~~ 0 \le P(A) \le 1$
반드시 일어나는 사건 $S$ 에 대하여 $~~~ P(S)=1$
절대로 일어나지 않는 사건 $\varnothing$ 에 대하여 $P(\varnothing)=0$
절대로 일어나지 않는 사건은 공집합 $\varnothing$ 으로 나타낸다.
ex.
주사위 한 개를 던지는 시행에서 6이하의 눈이 나오는 사건을 $A$ , 7의 눈이 나오는 사건을 $B$ 라 하면 $~~~P(A)=1,~~P(B)=0$

❕ 확률의 덧셈법칙

표본공간 $S$ 와 두 사건 $A,~B$ 에 대하여

$~~~~~~~~ \boxed {P(A \cup B) = P(A)~+~P(B)~-~P(A \cap B)}$

이때 두 사건 $A,~B$ 가 서로 배반사건이면
$A \cap B=\varnothing ~~\dashrightarrow~~~ P(A \cap B)= P(\varnothing)=0~$ 이므로

$~~~~~~~~ \boxed{P(A \cup B) = P(A)~+~P(B)}~$ 이다.

❕ 여사건의 확률

사건 $A$ 의 여사건 $A^c$ 에 대하여

$~~~~~~~~ \boxed{P(A^c)=1-P(A)}~~\dashrightarrow~~ \boxed{P(A^c)+P(A)=1}$

🔰 조건부확률

Conditional Probability
어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률
사건 $A$ 가 일어났을 때 사건 $B$ 의 조건부확률은

$~~~~~ P(B|A)= \cfrac{~P(A \cap B)~}{P(A)} ~~ (단,~P(A)>0)$

❕ 확률의 곱셈법칙

두 사건 $A, ~B$ 에 대하여 $P(A)>0,~P(B)>0$ 일 때,

$~~~~~~~~ \boxed{ P(A \cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B)}$

🔰 베이즈 정리

Bayes’ Theorem
표본공간 $S$ 에서 서로 배반인 사건 $A_1,~A_2,~...,~A_k$ 에 의하여 분할되어 있을 때,
임의의 사건 $B$ 에 대하여 다음이 성립한다.

$~~~~~~~~\boxed{P(A_i|B)= \cfrac{~P(A_i \cap B)~}{P(B)} = \cfrac{~P(B|A_i) \cdot P(A_i)~}{P(B)} = \cfrac{P(B|A_i) \cdot P(A_i)}{~\displaystyle \sum _{j=1}^{k} P(B|A_j) \cdot P(A_j)~}}$

ex.
자동차 보험의 고객의 분포 A등급 30%, B등급 50%, C등급 20%이고, 각 고객 등급별로 1년내 사고의 확률은 A등급 0.1 B등급 0.2 C등급 0.3이라면
1. 임의의 한 고객을 선택했을때, 그 고객이 1년 이내에 사고를 낼 확률을 구하시오
2. 어떤 고객이 1년내 사고를 낸 고객이라면, 그 고객이 A등급일 확률을 구하시오
  
  풀이) A등급 고객을 $A_1,~$ B등급 $A_2,~$ C등급 $A_3,~$ 라고 하고 1년이내 사고 낼 사건을 $B$ 라고 하면
  1. $P(B)=P(B|A_1)P(A_1)~+~P(B|A_2)P(A_2)~+~P(B|A_3)P(A_3)$
    
    $~~~~~~~~~~~ = 0.3 \times 0.1 ~+~ 0.5 \times 0.2 ~+~ 0.2 \times 0.3 = 0.19$
  2. $P(A_i|B) = \cfrac{~P(B|A_i)P(A_i)~}{P(B)} = \cfrac{0.3 \times 0.1}{0.19} = 0.157894737$

확률변수

어느 시행에서 표본공간의 각 원소에 하나의 실수 값에 대응되는 함수이다.

표본공간에서 각 사건에 실수를 대응시키는 함수를 확률변수(Random Variable)라고 한다.
확률변수는 표본공간을 정의역으로 하고 실수 전체의 집합을 공역으로 하는 함수이다.
표본공간은 어느 시행에서 일어날 수 있는 모든 결과의 집합을 의미한다.
확률변수 $X$ 가 어떤 값 $x$ 를 가질 확률을 기호로 나타내면 다음과 같다.

$~~~~~~ P(X=x)$
- 확률변수 $X$ 가 a 이상 b 이하의 값을 가질 확률은 $P(a \le X \le b)$ 와 같이 나타낸다.
- 확률변수는 보통 $X,~Y,~Z~$ 등과 같은 대문자로 표현하고,
  확률변수가 가질 수 있는 특정값은 $x,~y,~z~$ 등과 같은 소문자로 나타낸다.
확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변한다.
ex.
- 반도체 1000개의 wafer중 불량품의 수 X
- 공장에서 생산하는 전구의 수명 T
- 주사위를 던질 때 나오는 눈의 수 V

🔰 이산확률변수

Discrete Random Variable
셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
확률변수 $X$ 가 가질 수 있는 값을 셀 수 있을 때, $X$ 를 이산확률변수라고 한다.
일반적으로 셀 수 있다는 것은 대상이 유한개이거나 자연수 전체의 집합과 일대일 대응이 된다는 뜻이다.
ex.
- 3개의 동전을 동시에 던질 때 앞면이 나오는 동전의 개수 $X$ 가 가질 수 있는 값
  $\rightsquigarrow~0,~1,~2,~3$
- 5번의 자유투를 시도하여 성공한 횟수 $X = \{0,~1,~2,~3,~4,~5\}$
- 빨간 공 2개, 파란 공 3개가 들어 있는 주머니에서 임의로 2개의 공을 동시에 꺼낼 때 나오는 빨간 공의 개수 $X=\{0,~1,~2\}$

❕ 기대값(평균)

이산확률변수 $X$ 의 확률질량함수 $P(X=x_i)~=~p_i~~(i=1,2, \cdots, n)$ 일 때

기대값(평균): $~ \boxed{E(X)=x_1p_1 + x_2p_2 + \cdots +x_np_n = \displaystyle \sum _{i=1}^{n} x_ip_i}$
- ex. 주사위를 던졌을 때의 기대값은
  $~ 1 \times \frac{1}{6} ~+~ 2 \times \frac{1}{6} ~+~ 3 \times \frac{1}{6} ~+~ 4 \times \frac{1}{6} ~+~ 5 \times \frac{1}{6} ~+~ 6 \times \frac{1}{6}$
  $~ = \cfrac{~1+2+3+4+5+6~}{6} = 3.5$
기대값의 성질

$a(a \not= 0),~b$ 가 상수이고, $X,~Y$ 를 임의의 확률변수라고 할 때 다음이 성립한다.
- $E(a)=a~~\dashrightarrow~~$ 상수의 기대값은 상수이다.
- $E(aX) = aE(X)$
- $E(aX+b) = aE(X) + b$
- $E(aX \pm bY) = aE(X) \pm bE(Y)$
- $X,~Y$ 가 서로 독립일 때, $E(XY)=E(X)E(Y)$

❕ 분산

이산확률변수 $X$ 의 확률질량함수 $P(X=x_i)~=~p_i~~(i=1,2, \cdots, n)$ 일 때

분산: $~ \boxed{V(X)= E((X-m)^2) = \displaystyle \sum _{i=1}^{n} (x_i-m)^2 p_i = E(X^2) - \{E(X)\}^2}$

$~~~~~~~~~~\boxed{Var(X)=\cfrac{1}{N}\sum(x_i - \mu)^2}$
분산의 성질

$a(a \not= 0),~b$ 가 상수이고, $X,~Y$ 를 임의의 확률변수라고 할 때 다음이 성립한다.
- $V(a)=0$
- $V(aX) = a^2~V(X)$
- $V(X+Y) = V(X) + V(Y) + 2Cov(X,Y)$
- $V(aX \pm bY) = a^2~V(X) \pm b^2~V(Y)~+~2Cov(X,Y)$
- $X,~Y$ 가 서로 독립일 때, $V(XY)=0$
공분산

2개의 확률변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가진다.

$~~~~~ Cov(X,Y) = E[\{X-E(X)\}\{Y-E(Y)\}]$

$~~~~~~~~~~~~~~~~~~~~~~~~~~= \cfrac{~\sum _i^n (X_i-\bar{X})(Y_i-\bar{Y})~}{n-1}$

🔰 연속확률변수

continuous random variable
연속형 또는 무한대와 같이 셀 수 없는 경우
길이(키), 시간, 무게 등과 같이 어떤 범위에 속하는 임의의 실수 값을 연속적으로 갖는 확률변수가 연속확률변수이다.

손윤재

ISTP(정신승리), To Be Data Scientist

이전 포스트

[zero-base/] DS Part 6. Git - 44일차 스터디 노트

다음 포스트

[zero-base/] DS Part 7. 통계기본 - 45일차 스터디 노트

제로베이스 DS 22기

기초 통계량

🔰 중심경향치

❕ 평균

❕ 중앙값

❕ 최빈값

🔰 산포도

❕ 범위

❕ 사분위수

❕ 백분위수

❕ 분산

❕ 표준편차

❕ 변동계수, CV

확률

🔰 확률의 성질

❕ 확률의 기본성질

❕ 확률의 덧셈법칙

❕ 여사건의 확률

🔰 조건부확률

❕ 확률의 곱셈법칙

🔰 베이즈 정리

확률변수

🔰 이산확률변수

❕ 기대값(평균)

❕ 분산

🔰 연속확률변수

[zero-base/] DS Part 6. Git - 44일차 스터디 노트

[zero-base/] DS Part 7. 통계기본 - 46일차 스터디 노트

0개의 댓글