(2-4) 통계학, 기본 개념 / 확률, 확률분포

Yongjoo Lee·2020년 12월 10일
0
post-thumbnail
post-custom-banner

통계학, 기본개념

통계학에서 필수적인 개념들을 중심으로 살펴보도록 한다.

개념 정의

  • 통계학(statistics)

    • 데이터의 수집, 구성, 분석, 해석, 표현에 관한 학문
    • 기술통계학(descriptive statistics)
    • 추측통계학(inferential statistics)

    👉데이터를 수집하여 표현하고, 분석하여 미래를 예측하는 학문이다.

  • 모집단(population)

    : 어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합

    예) 전교 남학생의 키

  • 모수(parameter)

    : 모집단의 수치적인 특성

    예) 키의 평균

  • 표본(sample)

    : 모집단에서 선택된 일부 개체나 사건의 집합

도수(Frequency)

어떤 사건이 실험이나 관찰로부터 발생한 횟수 # 빈도

  • 표현방법
    • 도수분포표(Frequency Distribution Table)
    • 막대그래프(Bar graph) → 질적 자료 표현
    • 히스토그램(Histogram) → 양적 자료 표현

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png)

막대그래프는 사이 간격이 떨어져있고 순서가 상관없지만,

히스토그램은 비어있는 간격이 없고 순서가 중요하다

줄기-잎 그림(Stem and Leaf Diagram)

양적 데이터를 줄기와 잎으로 구분

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png)

데이터를 보기 쉽게 해주고 특정 구간의 분포를 파악하기 용이하다.

상대도수

도수를 전체 원소의 수로 나눈 것

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png)

🔥확률을 계산하는 데 중요한 개념이므로 꼭 이해를 하고 있어야 함!

scipy 모듈 : 어떤 데이터를 수집하고, 모집단의 수치적인 특성을 파악하기 위해 이용할 파이썬 모듈

평균

  • mean

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png)

*statistics 모듈 : mean, median 등의 함수가 들어있는 파이썬 모듈 (추가적인 설치 필요없음)*

평균은 두 가지 종류로 나누어진다.

  • 모평균 μ\mu

    모집단 전체 자료일 경우

  • 표본 평균 xˉ\bar{x}

    모집단에서 추출한 표본일 경우

📌평균의 경우 극단 값의 영향을 많이 받기 때문에 ( [1,2,3,100] )

이럴 경우에는 중앙값을 이용하는 것이 좋다.

중앙값(Median)

자료를 순서대로 나열했을 때 가운데 있는 값

  • Median

    자료의 수가 n일 때

    • n이 홀수: (n+1)2\frac{(n+1)}{2} 번째 자료값
    • n이 짝수: n2\frac{n}{2} 번째와 n2+1\frac{n}{2}+1 번째 자료값의 평균

분산(Variance)

편차의 제곱의 합을 자료의 수로 나눈 값

편차 : 값과 평균의 차이

⚠️ 표본분산은 n-1로 나눈다.

평균을 기준으로 많이 떨어져 있으면 분산값이 크게 나온다.

따라서 값들이 평균을 중심으로 많이 퍼져있는 지 적게 퍼져있는 지 파악할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png)

위의 사진에서 b의 경우 a에 비해 굉장히 큰 값이 나온 것을 확인할 수 있는데

b에 존재하는 이상점(평균과 거리가 먼 값)으로 인해 편차가 크게 나온 것이다.

표준편차(Standard Deviation)

분산의 양의 제곱근

statistics 모듈에서는 다음의 함수를 이용한다.

numpy 모듈에서는 다음의 함수를 이용한다.

ddof 인자를 1로 하면 표본분산과 표본표준편차를 구할 수 있다.

  • 표본분산 : var(a, ddof=1)
  • 표본표준편차 : std(a, ddof=1)

범위(Range)

자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png)

파이썬 기본 내장 함수인 max(), min() 을 사용해도 되고,

numpy 모듈의 max(), min() 을 사용해도 된다.

📌극단적인 값이 발생하면 엄청나게 차이가 나는 경우가 있는데

그럴 때 값을 비슷하게 조절할 때 사용이 되는 개념이다!

사분위수(Quartile)

전체 자료를 정렬했을 때 1/4, 1/2, 3/4 위치에 있는 숫자

  • Q1 : 제 1사분위수
  • Q3 : 제 3사분위수

numpy 모듈의 quantile() 을 이용한다. (quantile: 백분위수, quartile: 사분위수)

  • 두번째 인자로 0~1 사이의 값을 입력해주고, 입력한 값의 부분에 해당하는 값이 어떤 값인지 찾아준다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png)

👉자료들이 어떤 범위에 존재하는 지 확인할 수 있다.

📌범위(Range) 보다 대략적인 데이터의 모양을 파악하는 데에 용이하다.

z-score

어떤 값이 평균으로부터 몇 표준편차 떨어져 있는지를 의미하는 값

scripy 모듈의 stats.zscore() 를 이용한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png)

ddof 인자를 1로 넣어주면 표본표준편차에 대한 z-score 값을 반환한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png)

확률(Probability)

상대 도수에 의한 정의

똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율

예) 다음날 비가 올 확률?

표본공간(sample space) : 모든 가능한 실험결과들의 집합

예) 주사위의 숫자 : {1,2,3,4,5,6}\{1, 2, 3, 4, 5, 6\}

사건 : 관심 있는 실험 결과들의 집합 ( 표본 공간의 부분 집합 )

예) 주사위의 숫자 중 짝수 : {2,4,6}\{2, 4, 6\}

  • 고전적 정의

    표본 공간의 ⭐모든 원소가 일어날 확률이 같은 경우⭐에는 어떤 사건이 일어날 확률이

    사건의 원소의 수 / 표본공간의 원소의 수

    (365일 중 O월O일 확률은? → 계절에 따라 확률이 다르기 때문에 위의 식을 이용할 수 없음.

    이런 경우에는 상대도수를 활용해야 함!)

어떤 사건 AA가 있을 때,

AA가 일어날 확률을 P(A)P(A)로 표현한다.

확률 0 - 그 사건이 절대로 일어나지 않음

확률 1 - 반드시 그 사건이 일어남

👉확률은 0에서 1사이의 값을 가짐

확률의 계산

  • 표본 공간의 원소의 수를 세야 함
  • 사건의 원소의 수를 세야 함

따라서 경우의 수를 쉽게 셀 수 있는 방법이 필요!

👉조합(combination) 사용

조합(combination)

어떤 집합에서 순서에 상관없이 뽑은 원소의 집합

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png)

예제 # 1

검은공 3개, 흰공 4개가 있을 때

2개의 공을 무작위로 뽑을 때, 둘 다 흰공이 나올 확률은?

  • 표본 공간의 원소의 수

    (72)=21\begin{pmatrix}7\\2\end{pmatrix}=21

  • 흰공이 2개 뽑히는 경우의 수

    (42)=6\begin{pmatrix}4\\2\end{pmatrix}=6

  • 확률

    621=27\LARGE\frac{6}{21}=\frac{2}{7}

예제 # 2

검은공 3개, 흰공 4개가 있을 때

3개의 공을 무작위로 뽑을 때, 흰공 1개 검은공 2개가 나올 확률은?

  • 표본 공간의 원소의 수

    (73)=35\begin{pmatrix}7\\3\end{pmatrix}=35

  • 흰공 1개, 검은공 2개 뽑히는 경우의 수

    (41)×(32)=12\begin{pmatrix}4\\1\end{pmatrix}\times\begin{pmatrix}3\\2\end{pmatrix}=12

  • 확률

    1235\LARGE\frac{12}{35}

덧셈 법칙(Additivity Law)

P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B)

예시 )

주사위를 던지는 실험

  • 표본 공간: S={1,2,3,4,5,6}S = \{1, 2, 3, 4, 5, 6\}

  • 사건 AA : 주사위의 숫자가 짝수인 사건

    • P(A)=12P(A)=\frac{1}{2}
  • 사건 BB : 주사위의 숫자가 4 이상인 사건

    • P(B)=12P(B) = \frac{1}{2}
  • 사건 A나 사건 B가 일어날 확률

    • AB={2,4,5,6}A\cup B = \{2,4,5,6\}
    • P(AB)=ABS=46=23P(A\cup B) = \Large\frac{|A\cup B|}{|S|}=\frac{4}6=\frac{2}3
  • 사건 A와 사건 B가 동시에 일어날 확률

    • AB={4,6}A\cap B = \{4,6\}
    • P(AB)=ABS=26=13P(A\cap B) = \Large\frac{|A\cap B|}{|S|}=\frac{2}6=\frac{1}3
  • 덧셈법칙 이용 (P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B))

    • P(AB)=12+1213=23P(A\cup B) = \Large\frac{1}2+\frac{1}2-\frac{1}3=\frac{2}3

예제 #

1000명의 사람이 있는데, 남자의 비율이 40%, 20세 미만의 비율이 43%, 20세 미만이면서 남자의 비율이 15%라고 한다.

한명의 사람을 랜덤하게 뽑을 때 남자이거나 20세 미만일 확률은?

  • A : 남자일 사건
    • P(A)= 0.4
  • B : 20세 미만일 사건
    • P(B) = 0.43

확률분포

확률변수 (Random Variable)

랜덤한 실험 결과에 의존하는 실수

즉, 표본 공간의 부분 집합에 대응하는 실수

예시 1)

주사위 2개를 던지는 실험

  • 주사위 숫자의 합 → 하나의 확률 변수
  • 주사위 숫자의 차 → 하나의 확률 변수
  • 두 주사위 숫자 중 같거나 큰 수 → 하나의 확률 변수

예시 2)

동전 10개를 던지는 실험

  • 동전의 앞면의 수 → 하나의 확률 변수
  • 첫 번째 앞면이 나올 때까지 던진 횟수 → 하나의 확률 변수

보통 표본 공간에서 실수로 대응되는 함수로 정의

보통 XXYY 같은 대문자로 표시

이산확률변수 (discrete random variable) : 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우

예) 주사위, 동전과 관련된 위의 예

연속확률변수 (continuous random variable) : 셀 수 없는 경우

예) 어느 학교에서 랜덤하게 선택된 남학생의 키 → (무수히 많으면서 셀 수 없음)

확률분포 (Probability Distribution)

확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계

어떤 확률 변수 X가 가질 수 있는 값: 0,1,3,80, 1, 3, 8

각 값이 나올 확률은?

  • P(X=0)=0.2P(X=0)=0.2
  • P(X=1)=0.1P(X=1)=0.1
  • P(X=3)=0.5P(X=3)=0.5
  • P(X=8)=0.2P(X=8)=0.2

확률분포의 표현은 매우 다양함

  • 그래프
  • 함수
  • ...

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png)

예시 )

주사위 2개를 던지는 실험

  • 확률 변수 XX : 주사위 숫자의 합
    • XX가 가질 수 있는 값 → 2, 3, ..., 12
    • P(X=12)=136P(X = 12) = \Large\frac{1}{36}
  • 확률 변수 YY : 주사위 숫자의 차
    • YY가 가질 수 있는 값 → 0, 1, 2, ..., 5
    • P(Y=5)=236=118P(Y=5)={\Large\frac{2}{36}}={\Large\frac{1}{18}}

👉

  • 확률 변수 XX: 주사위 숫자의 합
  • 주사위를 던질 때마다 XX 의 값이 달라질 수 있음
  • nn번 실험하면, nn개의 숫자가 나옴
  • nn개의 숫자의 평균과 분산을 계산할 수 있음
    • 확률 변수 X도 평균과 분산을 가짐 → 이 평균과 분산을 모집단의 평균과 분산이라고 할 수 있음

이산확률변수

이산확률변수의 확률분포

  • 보통 함수로 주어짐
  • 확률변수 X 가 x라는 값을 가질 확률
    • p(X=x)=f(x)p(X = x) = f(x)
    • 확률질량함수

예)

확률변수 X 가 가질 수 있는 값: 0, 2, 5

P(X=x)=f(x)=x+110P(X = x) = f(x) = \Large\frac{x+1}{10}

  • P(X=0)=0.1P(X=0)=0.1
  • P(X=2)=0.3P(X=2)=0.3
  • P(X=5)=0.6P(X=5)=0.6

이산확률변수의 평균

  • 기대값(expected value) 이라고도 함.
  • E(X)=xxP(X=x)=xxf(x)E(X) =\textstyle\sum_{x}xP(X=x)=\textstyle\sum_{x}xf(x)
  • E(X)=0×0.1+2×0.3+5×0.6=3.6E(X) =0\times0.1+2\times0.3+5\times0.6=3.6

예를 들어 100,000 번의 실험을 했다면,

  • 0이 대략적으로 10,000 번 나오고,
  • 2가 대력적으로 30,000 번 나오고,
  • 5가 대력적으로 60,000 번 나오게 됨
  • 따라서 평균은
(0×10,000+2×30,000+5×60,000)100,000  =0×0.1+2×0.3+5×0.6=3.6\frac{(0\times10,000+2\times30,000+5\times60,000)}{100,000}\\\;\\=0\times0.1+2\times0.3+5\times0.6=3.6

이산확률변수의 분산

  • 실험을 할 때마다 확률변수의 값이 달라질 수 있음.

  • 따라서 그 변동의 정도인 분산을 계산할 수 있음.

    예를들어 100,000 번의 실험을 했다면,

    • 평균: 3.6

    • (03.6)2(0 - 3.6)^2이 대략적으로 10,000 번 나옴

    • (23.6)2(2 - 3.6)^2이 대략적으로 30,000 번 나옴

    • (53.6)2(5 - 3.6)^2이 대략적으로 60,000 번 나옴

      σ2=((03.6)2×10,000+(23.6)2×30,000+(53.6)2×60,000)100,000  =3.24\begin{aligned}\sigma^2\\&=\frac{((0-3.6)^2\times10,000 + (2-3.6)^2\times30,000+(5-3.6)^2\times60,000)}{100,000}\;\\&=3.24\end{aligned}

      ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png)

    • (Xμ)2(X-\mu)^2의 평균

      σ2=E[(Xμ)2]=x(xμ)2P(X=x)  =((03.6)2×0.1+(23.6)2×0.3+(53.6)2×0.6)  =3.24\begin{aligned}\sigma^2\\&=E[(X-\mu)^2]=\textstyle\sum_x(x-\mu)^2P(X=x)\\\;\\&={((0-3.6)^2\times0.1 + (2-3.6)^2\times0.3+(5-3.6)^2\times0.6)}\\\;\\&=3.24\end{aligned}

  • Var(x)라고도 함

이산확률변수의 표준편차

  • 분산의 양의 제곱근
  • σ2=σ\sqrt{\sigma^2} = \sigma
  • SD(x) 라고도 함

예제 #

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png)

확률변수 X의 분산 - 간편식

σ2=E(X2){E(X)}2\sigma^2=E(X^2)-\{E(X)\}^2

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png)

📌그냥 식과 간편식 둘다 알고 있다가 적절하게 사용할 것!

결합확률분포 (Joint Probability Distribution)

두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계

예시 )

  • 확률변수 XX : 한 학생이 가지는 휴대폰의 수
  • 확률변수 YY : 한 학생이 가지는 노트북의 수

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png)

결합확률분포를 통해 각 확률변수의 확률분포를 도출 할 수 있음

주변확률분포 (marginal probability distribution)

👉XX가 0인 경우, 1인 경우, 2인 경우 / YY가 0인 경우, 1인 경우를 각각 더함

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png)

공분산 (Covariance)

두 확률변수의 비례관계를 보여줌

확률변수 XX, YY 가 존재할 때, (XμX)(YμY)(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)의 평균을 공분산이라고 한다.

*μ\mu 는 평균

예시 )

고등학교 1학년 학생들

  • 확률변수 XX : 키

  • 확률변수 YY : 몸무게

  • 확률변수 ZZ : 수학성정

  • (XμX)(YμY)(X-{\Large\mu}_X)(Y-{\Large\mu}_Y) : (일반적으로) 양일 가능성이 높음 → (키와 몸무게는 비례관계)

    • 양의 상관관계 가능성 존재
  • (XμX)(ZμZ)(X-{\Large\mu}_X)(Z-{\Large\mu}_Z) : 양과 음이 될 가능성이 반반

    • 서로 연관이 없을 가능성 존재
  • (XμX)(YμY)(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)(XμX)(ZμZ)(X-{\Large\mu}_X)(Z-{\Large\mu}_Z)

    • 각각 확률변수이기 때문에 평균분산을 구할 수 있음.
  • 확률변수 XXYY의 공분산(Covariance)

    • (XμX)(YμY)(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)의 평균

      Cov(X,Y)=E[(XμX)(YμY)]=E(XY)μXμY=E[XY]E[X]E[Y]Cov(X,Y)=E[(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)]\\=E(XY)-{\Large\mu}_X{\Large\mu}_Y=E[XY]-E[X]E[Y]

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png)

👉X가 크면 Y도 조금 클 가능성이 높다.

🔥공분산은 각 확률변수의 절대적인 크기에 영향을 받음

만약 x의 값이 0, 100, 200 이고, y의 값이 0, 1, 2 이면 공분산이 크게 달라진다!

상관계수 (Correlation Coefficient)

절대적인 크기에 영향을 받는 공분산에 대해 단위에 의한 영향을 없앤 것

ρ=Corr(X,Y)=Cov(X,Y)σXσY{\Large\rho}=Corr(X,Y)=\frac{Cov(X,Y)}{{\Large\sigma}_X{\Large\sigma}_Y}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png)

네 가지 확률분포

중요한 확률분포 네 가지

  • 이항분포
  • 정규분포
  • 포아송분포
  • 지수분포

이항분포 (Binomial distribution)

이항확률변수의 확률분포

  • 베르누이 시행(Bernoulli trial)

    • 정확하게 2개의 결과만을 가지는 실험 → 예) 동전던지기
    • 보통 성공과 실패로 결과를 구분
    • 성공의 확률: pp
  • 확률변수 X

    • nn번의 베르누이 시행에서 성공의 횟수
    • 이항확률변수 라고 함

이항확률변수 X의 확률분포

f(x)=P[X=x]=(nx)px(1p)nxf(x)=P[X=x]=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x}

동전을 10개 던졌을 때 앞면이 나올 확률

→ 성공확률이 0.5라고 하면 기대값(5)일때 수치가 가장 크다. ( 5개가 나올 확률이 가장 크다 )

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png)

예시 )

어떤 랜덤박스의 뽑기 성공 확률이 0.2이다.

3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?

P[x1]=1P[X=0]=1(30)(0.2)0(10.2)30=10.512=0.488P[x\ge1]=1-P[X=0]\\=1-\begin{pmatrix}3\\0\end{pmatrix}(0.2)^0(1-0.2)^{3-0}=1-0.512=0.488

이항분포의 평균, 분산, 표준편차

  • 평균
    • E(X)=npE(X)=np
  • 분산
    • Var(X)=np(1p)Var(X) = np(1-p)
  • 표준편차
    • SD(X)=np(1p)SD(X) = \sqrt{np(1-p)}

정규분포 (Gaussian distribution)

연속확률변수의 확률분포

  • 확률밀도함수(Probability Density Function) 를 이용하여 표현
    • f(x)f(x)

📌연속확률변수에서는 확률변수 X가 특정 x를 가지는 숫자를 대응시킬 수가 없다!

따라서 연속확률변수의 확률분포에는 확률밀도함수 f(x)f(x)를 제공해준다.

P[aXb]=abf(x)dxP[a\le X\le b]=\int^b_af(x)dx

확률밀도함수를 이용하여 확률변수 X가 a와 b 사이의 값을 가질 확률을 넓이로 제공.

즉, 그래프 아래 부분의 넓이가 확률이 됨

정규분포의 확률밀도함수

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png)

👉μ\mu 일 때가 가장 크다

*X N(μ,σ2)X~N(\mu, \sigma^2) 의 뜻 : "평균이 μ\mu이고 분산이 σ2\sigma^2 인 정규분포를 따른다"

표준정규확률변수 (Standard normal random variable)

X가 정규분포를 따르는 정규확률변수인 경우

Z=XμσZ=\frac{X-\mu}{\sigma}

🔥모든 정규확률변수는 표준정규확률변수로 변환이 가능!

그래서 하나의 표준 정규분포표를 만들어두면 임의의 정규분포에 대해서 확률 계산이 가능하다!

표준정규분포 (Standard normal distribution)

📌P[Zz]P[Z\le z] 에서 표준정규확률변수 ZZzz 보다 작거나 같을 확률이 표로 제공이 된다.

  • 행: 소수점 첫째자리, 열: 소수점 둘째자리
  • 표준정규확률변수 ZZ0.37보다 작을 확률은 0.64431 이다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png)

[출처: https://www.math.arizona.edu/~rsims/ma464/standardnormaltable.pdf]

예제 # 1

X~N(4,32)X\text{\textasciitilde}N(4,3^2)

  • P[X4]P[X\le 4] = ?

먼저 확률변수를 표준정규확률변수로 치환해주어야 한다.

Z=XμσZ=\frac{X-\mu}{\sigma}
P[X4]=[Xμσ4μσ]=P[Z443]=P[Z0]  =0.5\begin{aligned}P[X\le 4]&=\begin{bmatrix}{\Large\frac{X-\mu}{\sigma}}\le{\Large\frac{4-\mu}{\sigma}}\end{bmatrix}=P\begin{bmatrix}Z\le {\Large\frac{4-4}{3}}\end{bmatrix}=P\begin{bmatrix}Z\le {0}\end{bmatrix}\\\;\\&=0.5\end{aligned}

코드에서는 바로 인자로 넣어주면 되기 때문에 표준정규확률변수로 치환해줄 필요가 없다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png)

예제 # 2

X~N(4,32)X\text{\textasciitilde}N(4,3^2)

  • P[4X7]P[4 \le X\le 7] = ?
    • P[X7]P[X<4]P[X \le 7]-P[X < 4]
P[X7]P[X<4]=P[Z743]P[Z<443]=P[Z1]=P[Z<0]=0.841340.5=0.34134\begin{aligned}P[X \le 7]-P[X < 4]&=P\begin{bmatrix}Z\le{\Large\frac{7-4}{3}}\end{bmatrix}-P\begin{bmatrix}Z<{\Large\frac{4-4}{3}}\end{bmatrix}\\&=P\begin{bmatrix}Z\le {1}\end{bmatrix}=P\begin{bmatrix}Z< {0}\end{bmatrix}\\&=0.84134-0.5\\&=0.34134\end{aligned}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png)

예제 # 3

어떤 종목의 주가가 전날 종가를 평균으로 하고, 표준편차가 50인 정규분포를 따른다고 한다.

오늘 종가가 1,000원일 때, 내일 주가가 1,100원 이상이 될 확률은?

  • P[X1100]P[X \ge 1100]=?
P[X1100]=P[Z1100100050]=P[Z2]=1P[Z<2]=10.97725=0.02275\begin{aligned}P[X \ge 1100]&=P\begin{bmatrix}Z\ge{\Large\frac{1100-1000}{50}}\end{bmatrix}\\&=P[Z\ge2]\\&=1-P[Z<2]\\&=1-0.97725\\&=0.02275\end{aligned}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png)

포아송분포 (Poisson distribution)

일정한 시간 또는 공간 단위에서 발생하는 이벤트의 수의 확률분포

예 )

  • 하루 동안 어떤 웹사이트를 방문하는 방문자의 수

  • 어떤 미용실에 한 시간동안 방문하는 손님의 수

  • 어떤 전기선 100미터당 발생하는 결함의 수

  • 확률분포함수 (확률질량함수)

    P[X=x]=f(x)=λxeλx!,x=0,1,2,  P[X=x]=f(x)={\Large\lambda ^x\frac{e^{-\lambda}}{x!}},\hspace{1em}x=0,1,2,\;\dots
    • 평균: λ\lambda

    • 분산: λ\lambda

      *λ\lambda : 시간당 평균 수

예제 #

어느 웹사이트에 시간당 접속자 수는 평균이 3(λ=3\lambda=3)인 포아송 분포를 따른다고 한다.

앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?

  • P[X2]P[X\le2]=
P[X2]=P[X=0]+P[X=1]+P[X=2]=30e30!+31e31!+32e32!=0.04998+0.14936+0.22404=0.42319\begin{aligned}P[X\le2]&=P[X=0]+P[X=1]+P[X=2]\\&={3^0\frac{e^{-3}}{0!}}+{3^1\frac{e^{-3}}{1!}}+{3^2\frac{e^{-3}}{2!}}\\&=0.04998+0.14936+0.22404\\&=0.42319\end{aligned}

코드에서는 평균으로 λ\lambda값만 인자로 지정해주면 된다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png)

지수분포 (Exponential distribution)

포아송분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률분포

  • 확률밀도 함수

    f(t)=λeλtf(t) = \Large\lambda e^{-\lambda t}
    • λ\lambda : 포아송분포의 평균
    • 평균 : E(T)=1λE(T) = \Large\frac{1}{\lambda} 예) 시간당 3명이 오면, 3명이 오는데 걸리는 시간은 1/3이다)
    • 분산 : Var(T)=1λ2Var(T) = \Large\frac{1}{\lambda ^2}

예제 #

어느 웹사이트에 시간당 접속자 수는 λ=3\lambda=3 인 포아송분포를 따른다고 한다.

지금부터 시작하여 첫번째 접속자가 30분 이내에 올 확률은?

  • P[T0.5]P[T\le0.5]=?

    P[X0.5]=00.5λeλtdt=00.53e3tdt=[e3t]00.5=1e1.5=10.2231=0.7769\begin{aligned}P[X\le0.5]&=\int^{0.5}_0\lambda e^{-\lambda t}dt=\int^{0.5}_03 e^{-3 t}dt\\&=[-e^{-3t}]^{0.5}_0=1-e^{-1.5}\\&=1-0.2231\\&=0.7769\end{aligned}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png)

profile
하나씩 정리하는 개발공부로그입니다.
post-custom-banner

0개의 댓글