통계학, 기본개념
통계학에서 필수적인 개념들을 중심으로 살펴보도록 한다.
개념 정의
-
통계학(statistics)
- 데이터의 수집, 구성, 분석, 해석, 표현에 관한 학문
- 기술통계학(descriptive statistics)
- 추측통계학(inferential statistics)
👉데이터를 수집하여 표현하고, 분석하여 미래를 예측하는 학문이다.
-
모집단(population)
: 어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합
예) 전교 남학생의 키
-
모수(parameter)
: 모집단의 수치적인 특성
예) 키의 평균
-
표본(sample)
: 모집단에서 선택된 일부 개체나 사건의 집합
도수(Frequency)
어떤 사건이 실험이나 관찰로부터 발생한 횟수 # 빈도
- 표현방법
- 도수분포표(Frequency Distribution Table)
- 막대그래프(Bar graph) → 질적 자료 표현
- 히스토그램(Histogram) → 양적 자료 표현
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png)
막대그래프는 사이 간격이 떨어져있고 순서가 상관없지만,
히스토그램은 비어있는 간격이 없고 순서가 중요하다
줄기-잎 그림(Stem and Leaf Diagram)
양적 데이터를 줄기와 잎으로 구분
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png)
데이터를 보기 쉽게 해주고 특정 구간의 분포를 파악하기 용이하다.
상대도수
도수를 전체 원소의 수로 나눈 것
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png)
🔥확률을 계산하는 데 중요한 개념이므로 꼭 이해를 하고 있어야 함!
scipy
모듈 : 어떤 데이터를 수집하고, 모집단의 수치적인 특성을 파악하기 위해 이용할 파이썬 모듈
평균
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png)
*statistics
모듈 : mean, median 등의 함수가 들어있는 파이썬 모듈 (추가적인 설치 필요없음)*
평균은 두 가지 종류로 나누어진다.
-
모평균 μ
모집단 전체 자료일 경우
-
표본 평균 xˉ
모집단에서 추출한 표본일 경우
📌평균의 경우 극단 값의 영향을 많이 받기 때문에 ( [1,2,3,100]
)
이럴 경우에는 중앙값을 이용하는 것이 좋다.
자료를 순서대로 나열했을 때 가운데 있는 값
-
Median
자료의 수가 n일 때
- n이 홀수: 2(n+1) 번째 자료값
- n이 짝수: 2n 번째와 2n+1 번째 자료값의 평균
분산(Variance)
편차의 제곱의 합을 자료의 수로 나눈 값
편차 : 값과 평균의 차이
⚠️ 표본분산은 n-1로 나눈다.
평균을 기준으로 많이 떨어져 있으면 분산값이 크게 나온다.
따라서 값들이 평균을 중심으로 많이 퍼져있는 지 적게 퍼져있는 지 파악할 수 있다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png)
위의 사진에서 b의 경우 a에 비해 굉장히 큰 값이 나온 것을 확인할 수 있는데
b에 존재하는 이상점(평균과 거리가 먼 값)으로 인해 편차가 크게 나온 것이다.
표준편차(Standard Deviation)
분산의 양의 제곱근
statistics
모듈에서는 다음의 함수를 이용한다.
numpy
모듈에서는 다음의 함수를 이용한다.
ddof
인자를 1
로 하면 표본분산과 표본표준편차를 구할 수 있다.
- 표본분산 :
var(a, ddof=1)
- 표본표준편차 :
std(a, ddof=1)
범위(Range)
자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png)
파이썬 기본 내장 함수인 max()
, min()
을 사용해도 되고,
numpy
모듈의 max()
, min()
을 사용해도 된다.
📌극단적인 값이 발생하면 엄청나게 차이가 나는 경우가 있는데
그럴 때 값을 비슷하게 조절할 때 사용이 되는 개념이다!
사분위수(Quartile)
전체 자료를 정렬했을 때 1/4, 1/2, 3/4 위치에 있는 숫자
- Q1 : 제 1사분위수
- Q3 : 제 3사분위수
numpy
모듈의 quantile()
을 이용한다. (quantile: 백분위수, quartile: 사분위수)
- 두번째 인자로 0~1 사이의 값을 입력해주고, 입력한 값의 부분에 해당하는 값이 어떤 값인지 찾아준다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png)
👉자료들이 어떤 범위에 존재하는 지 확인할 수 있다.
📌범위(Range) 보다 대략적인 데이터의 모양을 파악하는 데에 용이하다.
z-score
어떤 값이 평균으로부터 몇 표준편차 떨어져 있는지를 의미하는 값
scripy
모듈의 stats.zscore()
를 이용한다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png)
ddof
인자를 1
로 넣어주면 표본표준편차에 대한 z-score 값을 반환한다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png)
확률(Probability)
상대 도수에 의한 정의
똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율
예) 다음날 비가 올 확률?
표본공간(sample space) : 모든 가능한 실험결과들의 집합
예) 주사위의 숫자 : {1,2,3,4,5,6}
사건 : 관심 있는 실험 결과들의 집합 ( 표본 공간의 부분 집합 )
예) 주사위의 숫자 중 짝수 : {2,4,6}
-
고전적 정의
표본 공간의 ⭐모든 원소가 일어날 확률이 같은 경우⭐에는 어떤 사건이 일어날 확률이
→ 사건의 원소의 수 / 표본공간의 원소의 수
(365일 중 O월O일 확률은? → 계절에 따라 확률이 다르기 때문에 위의 식을 이용할 수 없음.
이런 경우에는 상대도수를 활용해야 함!)
어떤 사건 A가 있을 때,
A가 일어날 확률을 P(A)로 표현한다.
확률 0
- 그 사건이 절대로 일어나지 않음
확률 1
- 반드시 그 사건이 일어남
👉확률은 0
에서 1
사이의 값을 가짐
확률의 계산
- 표본 공간의 원소의 수를 세야 함
- 사건의 원소의 수를 세야 함
따라서 경우의 수를 쉽게 셀 수 있는 방법이 필요!
👉조합(combination) 사용
조합(combination)
어떤 집합에서 순서에 상관없이 뽑은 원소의 집합
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png)
예제 # 1
검은공 3개, 흰공 4개가 있을 때
2개의 공을 무작위로 뽑을 때, 둘 다 흰공이 나올 확률은?
-
표본 공간의 원소의 수
(72)=21
-
흰공이 2개 뽑히는 경우의 수
(42)=6
-
확률
216=72
예제 # 2
검은공 3개, 흰공 4개가 있을 때
3개의 공을 무작위로 뽑을 때, 흰공 1개 검은공 2개가 나올 확률은?
-
표본 공간의 원소의 수
(73)=35
-
흰공 1개, 검은공 2개 뽑히는 경우의 수
(41)×(32)=12
-
확률
3512
덧셈 법칙(Additivity Law)
P(A∪B)=P(A)+P(B)−P(A∩B)
예시 )
주사위를 던지는 실험
-
표본 공간: S={1,2,3,4,5,6}
-
사건 A : 주사위의 숫자가 짝수인 사건
- P(A)=21
-
사건 B : 주사위의 숫자가 4 이상인 사건
- P(B)=21
-
사건 A나 사건 B가 일어날 확률
- A∪B={2,4,5,6}
- P(A∪B)=∣S∣∣A∪B∣=64=32
-
사건 A와 사건 B가 동시에 일어날 확률
- A∩B={4,6}
- P(A∩B)=∣S∣∣A∩B∣=62=31
-
덧셈법칙 이용 (P(A∪B)=P(A)+P(B)−P(A∩B))
- P(A∪B)=21+21−31=32
예제 #
1000명의 사람이 있는데, 남자의 비율이 40%, 20세 미만의 비율이 43%, 20세 미만이면서 남자의 비율이 15%라고 한다.
한명의 사람을 랜덤하게 뽑을 때 남자이거나 20세 미만일 확률은?
- A : 남자일 사건
- B : 20세 미만일 사건
확률분포
확률변수 (Random Variable)
랜덤한 실험 결과에 의존하는 실수
즉, 표본 공간의 부분 집합에 대응하는 실수
예시 1)
주사위 2개를 던지는 실험
- 주사위 숫자의 합 → 하나의 확률 변수
- 주사위 숫자의 차 → 하나의 확률 변수
- 두 주사위 숫자 중 같거나 큰 수 → 하나의 확률 변수
예시 2)
동전 10개를 던지는 실험
- 동전의 앞면의 수 → 하나의 확률 변수
- 첫 번째 앞면이 나올 때까지 던진 횟수 → 하나의 확률 변수
보통 표본 공간에서 실수로 대응되는 함수로 정의
보통 X 나 Y 같은 대문자로 표시
이산확률변수 (discrete random variable) : 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우
예) 주사위, 동전과 관련된 위의 예
연속확률변수 (continuous random variable) : 셀 수 없는 경우
예) 어느 학교에서 랜덤하게 선택된 남학생의 키 → (무수히 많으면서 셀 수 없음)
확률분포 (Probability Distribution)
확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계
어떤 확률 변수 X가 가질 수 있는 값: 0,1,3,8
각 값이 나올 확률은?
- P(X=0)=0.2
- P(X=1)=0.1
- P(X=3)=0.5
- P(X=8)=0.2
확률분포의 표현은 매우 다양함
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png)
예시 )
주사위 2개를 던지는 실험
- 확률 변수 X : 주사위 숫자의 합
- X가 가질 수 있는 값 → 2, 3, ..., 12
- P(X=12)=361
- 확률 변수 Y : 주사위 숫자의 차
- Y가 가질 수 있는 값 → 0, 1, 2, ..., 5
- P(Y=5)=362=181
👉
- 확률 변수 X: 주사위 숫자의 합
- 주사위를 던질 때마다 X 의 값이 달라질 수 있음
- n번 실험하면, n개의 숫자가 나옴
- 이 n개의 숫자의 평균과 분산을 계산할 수 있음
- 확률 변수 X도 평균과 분산을 가짐 → 이 평균과 분산을 모집단의 평균과 분산이라고 할 수 있음
이산확률변수
이산확률변수의 확률분포
- 보통 함수로 주어짐
- 확률변수 X 가 x라는 값을 가질 확률
- p(X=x)=f(x)
- 확률질량함수
예)
확률변수 X 가 가질 수 있는 값: 0, 2, 5
P(X=x)=f(x)=10x+1
- P(X=0)=0.1
- P(X=2)=0.3
- P(X=5)=0.6
이산확률변수의 평균
- 기대값(expected value) 이라고도 함.
- E(X)=∑xxP(X=x)=∑xxf(x)
- E(X)=0×0.1+2×0.3+5×0.6=3.6
예를 들어 100,000 번의 실험을 했다면,
- 0이 대략적으로 10,000 번 나오고,
- 2가 대력적으로 30,000 번 나오고,
- 5가 대력적으로 60,000 번 나오게 됨
- 따라서 평균은
100,000(0×10,000+2×30,000+5×60,000)=0×0.1+2×0.3+5×0.6=3.6
이산확률변수의 분산
이산확률변수의 표준편차
- 분산의 양의 제곱근
- σ2=σ
SD(x)
라고도 함
예제 #
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png)
확률변수 X의 분산
- 간편식
σ2=E(X2)−{E(X)}2
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png)
📌그냥 식과 간편식 둘다 알고 있다가 적절하게 사용할 것!
결합확률분포 (Joint Probability Distribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계
예시 )
- 확률변수 X : 한 학생이 가지는 휴대폰의 수
- 확률변수 Y : 한 학생이 가지는 노트북의 수
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png)
결합확률분포를 통해 각 확률변수의 확률분포를 도출 할 수 있음
→ 주변확률분포 (marginal probability distribution)
👉X가 0인 경우, 1인 경우, 2인 경우 / Y가 0인 경우, 1인 경우를 각각 더함
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png)
공분산 (Covariance)
두 확률변수의 비례관계를 보여줌
확률변수 X, Y 가 존재할 때, (X−μX)(Y−μY)의 평균을 공분산이라고 한다.
*μ 는 평균
예시 )
고등학교 1학년 학생들
-
확률변수 X : 키
-
확률변수 Y : 몸무게
-
확률변수 Z : 수학성정
-
(X−μX)(Y−μY) : (일반적으로) 양일 가능성이 높음 → (키와 몸무게는 비례관계)
-
(X−μX)(Z−μZ) : 양과 음이 될 가능성이 반반
-
(X−μX)(Y−μY) 와 (X−μX)(Z−μZ)
- 각각 확률변수이기 때문에 평균과 분산을 구할 수 있음.
-
확률변수 X와 Y의 공분산(Covariance)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png)
👉X가 크면 Y도 조금 클 가능성이 높다.
🔥공분산은 각 확률변수의 절대적인 크기에 영향을 받음
만약 x의 값이 0, 100, 200 이고, y의 값이 0, 1, 2 이면 공분산이 크게 달라진다!
상관계수 (Correlation Coefficient)
절대적인 크기에 영향을 받는 공분산에 대해 단위에 의한 영향을 없앤 것
ρ=Corr(X,Y)=σXσYCov(X,Y)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png)
네 가지 확률분포
중요한 확률분포 네 가지
이항분포 (Binomial distribution)
이항확률변수의 확률분포
-
베르누이 시행(Bernoulli trial)
- 정확하게 2개의 결과만을 가지는 실험 → 예) 동전던지기
- 보통 성공과 실패로 결과를 구분
- 성공의 확률: p
-
확률변수 X
- n번의 베르누이 시행에서 성공의 횟수
- 이항확률변수 라고 함
이항확률변수 X의 확률분포
f(x)=P[X=x]=(nx)px(1−p)n−x
동전을 10개 던졌을 때 앞면이 나올 확률
→ 성공확률이 0.5라고 하면 기대값(5)일때 수치가 가장 크다. ( 5개가 나올 확률이 가장 크다 )
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png)
예시 )
어떤 랜덤박스의 뽑기 성공 확률이 0.2이다.
3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?
P[x≥1]=1−P[X=0]=1−(30)(0.2)0(1−0.2)3−0=1−0.512=0.488
이항분포의 평균
, 분산
, 표준편차
- 평균
- 분산
- Var(X)=np(1−p)
- 표준편차
- SD(X)=np(1−p)
정규분포 (Gaussian distribution)
연속확률변수의 확률분포
- 확률밀도함수(Probability Density Function) 를 이용하여 표현
📌연속확률변수에서는 확률변수 X가 특정 x를 가지는 숫자를 대응시킬 수가 없다!
따라서 연속확률변수의 확률분포에는 확률밀도함수 f(x)를 제공해준다.
P[a≤X≤b]=∫abf(x)dx
확률밀도함수를 이용하여 확률변수 X가 a와 b 사이의 값을 가질 확률을 넓이로 제공.
즉, 그래프 아래 부분의 넓이가 확률이 됨
정규분포의 확률밀도함수
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png)
👉μ 일 때가 가장 크다
*X N(μ,σ2) 의 뜻 : "평균이 μ이고 분산이 σ2 인 정규분포를 따른다"
표준정규확률변수 (Standard normal random variable)
X가 정규분포를 따르는 정규확률변수인 경우
Z=σX−μ
🔥모든 정규확률변수는 표준정규확률변수로 변환이 가능!
그래서 하나의 표준 정규분포표를 만들어두면 임의의 정규분포에 대해서 확률 계산이 가능하다!
표준정규분포 (Standard normal distribution)
📌P[Z≤z] 에서 표준정규확률변수 Z 가 z 보다 작거나 같을 확률이 표로 제공이 된다.
- 행: 소수점 첫째자리, 열: 소수점 둘째자리
- 표준정규확률변수 Z 가
0.37
보다 작을 확률은 0.64431
이다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png)
[출처: https://www.math.arizona.edu/~rsims/ma464/standardnormaltable.pdf]
예제 # 1
X~N(4,32)
- P[X≤4] = ?
먼저 확률변수를 표준정규확률변수로 치환해주어야 한다.
Z=σX−μ
P[X≤4]=[σX−μ≤σ4−μ]=P[Z≤34−4]=P[Z≤0]=0.5
코드에서는 바로 인자로 넣어주면 되기 때문에 표준정규확률변수로 치환해줄 필요가 없다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png)
예제 # 2
X~N(4,32)
- P[4≤X≤7] = ?
- P[X≤7]−P[X<4]
P[X≤7]−P[X<4]=P[Z≤37−4]−P[Z<34−4]=P[Z≤1]=P[Z<0]=0.84134−0.5=0.34134
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png)
예제 # 3
어떤 종목의 주가가 전날 종가를 평균으로 하고, 표준편차가 50인 정규분포를 따른다고 한다.
오늘 종가가 1,000원일 때, 내일 주가가 1,100원 이상이 될 확률은?
- P[X≥1100]=?
P[X≥1100]=P[Z≥501100−1000]=P[Z≥2]=1−P[Z<2]=1−0.97725=0.02275
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png)
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png)
포아송분포 (Poisson distribution)
일정한 시간 또는 공간 단위에서 발생하는 이벤트의 수의 확률분포
예 )
예제 #
어느 웹사이트에 시간당 접속자 수는 평균이 3(λ=3)인 포아송 분포를 따른다고 한다.
앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?
P[X≤2]=P[X=0]+P[X=1]+P[X=2]=300!e−3+311!e−3+322!e−3=0.04998+0.14936+0.22404=0.42319
코드에서는 평균으로 λ값만 인자로 지정해주면 된다.
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png)
지수분포 (Exponential distribution)
포아송분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률분포
-
확률밀도 함수
f(t)=λe−λt
- λ : 포아송분포의 평균
- 평균 : E(T)=λ1 예) 시간당 3명이 오면, 3명이 오는데 걸리는 시간은 1/3이다)
- 분산 : Var(T)=λ21
예제 #
어느 웹사이트에 시간당 접속자 수는 λ=3 인 포아송분포를 따른다고 한다.
지금부터 시작하여 첫번째 접속자가 30분 이내에 올 확률은?
-
P[T≤0.5]=?
P[X≤0.5]=∫00.5λe−λtdt=∫00.53e−3tdt=[−e−3t]00.5=1−e−1.5=1−0.2231=0.7769
![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png)