[TIL] Day 8 - 인공지능 수학(4)

기역의궁전·2021년 5월 1일

인공지능데브코스 통계학 프로그래머스

dev2_TIL

목록 보기

8/18

마크다운 기호 신세계.. 참고 블로그
https://datastory1.blogspot.com/2017/11/r-markdown_2.html

통계학

모집단(population)

어떤 질문이나 실험을 위한 관심 대상이 되는 개체 or 사건의 집합
ex) 전교 남학생의 키

모수(parameter)

모집단의 수치적인 특성
ex) 전교 남학생의 키 평균

표본(sample)

모집단에서 선택된 개체나 사건의 집합

도수(frequency)

어떤 사건이 실험이나 관찰로부터 발생한 횟수(빈도)
ex) 도수분포표(Frequency Distribution Table)

상대도수(relative frequency)

도수를 전체 원소의 수로 나눈 것 (확률 계산 시, 필요)

평균

list = [i for i in range(1,10)] #1,2,3,4,5,6,7,8,9
import statistics
statistics.mean(list) # 5

모평균 $E(X) =\mu$

모집단 전체 자료의 평균

표본평균 $\overline{X}$

모집단에서 추출한 표본의 평균

중앙값 (median)

자료를 정렬했을 때 가운데 있는 값
(평균값은 극단 값에 영향을 받기 때문에)
n개의 자료 수,

n이 홀수 : $\frac{n+1}{2}$ 번째 값

n이 짝수 : $\frac{n}{2}$ 번째와 $\frac{n}{2}+1$ 번째의 자료값의 평균
(원래 존재 하지 않는 값이지만, median)

statistic.median(list)  #len(list)에 따라 홀/짝으로 나누어 알아서 계산됨.

분산(variance)

편차의 제곱의 합을 자료의 수로 나눈 값
(음의 부호를 없애기 위해 편차의 제곱으로 임의로 뻥튀기를 해 놓았다)
※ 편차 : 값과 평균의 차이

자료가 모집단일 경우 => 모분산
$\sigma^2=\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2$

import numpy as np
np.var(list)
# statistics.pvariance(list) 와 동일

자료가 표본일 경우 => 표본분산
$S^2=\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2$

import numpy as np
np.var(list, ddof=1) # ddof = Delta Degrees of Freedom -> ddof만큼 n에서 빼준다.
# statistics.variance(list) 와 동일

표준편차(standard deviation)

분산의 양의 제곱근
(임의로 뻥튀기를 해 놓았으니 루트를 씌어 원래 차이 정도를 알기 위해)

자료가 모집단일 경우 => 모표준편차
$\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2}$

import numpy as np
np.std(list)
# statistics.pstdev(list) 와 동일

자료가 표본일 경우 => 표본분산
$S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2}$

import numpy as np
np.std(list, ddof=1) # ddof = Delta Degrees of Freedom -> ddof만큼 n에서 빼준다.
# statistics.stdev(list) 와 동일

범위(range)

$|MAX - MIN|$ 값 차이 -> np.max(list) - np.min(list)
극단 값에 취약하다.

사분위수(Quartile)

자료를 정렬했을 때, $\frac{1}{4},\frac{1}{2},\frac{3}{4}$ 위치에 있는 값.

np.quantile(list, 0.25)  #Q1 : 제 1사분위수
np.quantile(list, 0.5)  #Q2 : 제 2사분위수
np.quantile(list, 0.75)  #Q3 : 제 3사분위수
np.quantile(list, 0.6)  # 두번에 파라미터에는 0~1까지 사이의 값 무엇이든 가능

※ 사분위 범위 (interquartile range)
: $Q_3 - Q1$

표준점수(Z-Score)

표준값 z는 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다.
(음수이면 평균이하, 양수이면 평균이상이다.)

모집단의 표준 값 $z_i$
$z_i = \frac{x_i-\mu}{\sigma}$
$\mu$ 는 모집단에서의 평균이다.
$\sigma$ 는 모집단에서의 표준편차이다.

import scipy.stats
scipy.stats.zscore(list)

표본의 표준 값 $z_i$
$z_i = \frac{x_i-\overline{X}}{s}$
$\overline{X}$ 는 표본에서의 평균이다.
$s$ 는 표본에서의 표준편차이다.

import scipy.stats
scipy.stats.zscore(list, ddof=1)

확률

상대도수에 의한 정의
:똑같은 실험을 무수히 많이 반복할 때, 어떤 일이 일어나는 비율
고전적 정의
: 어떤 사건(A)이 일어날 확률 = $P(A)$ , 사건의 원소의 수 / 표본공간의 원소의 수
(단, 표본공간의 모든 원소가 일어날 확률이 같을 때)

※ Combination 조합
: 어떤 집합에서 순서에 상관없이 뽑은 원소의 집합
n개중 r개를 뽑는 경우의 수 $\begin{pmatrix} n \\ r \end{pmatrix} = \frac{n!}{r!(n-r)!}$

확률의 계산법칙 (경우의 수를 얻기 힘들 때)

덧셈법칙(Addition Law)

사건 A,B에 대하여,
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$

배반(Mutaully Exclusive)

사건 A,B가 동시에 일어날 확률이 0일 때, 즉 $P(A \cap B) = 0$ 는
$P(A \cup B) = P(A) + P(B)$
ex) 주사위를 던져서 홀수이거나 4의 배수일 경우의 수?

조건부확률(Conditional probability)

사건 A가 일어 났을때, 다른 B사건이 일어날 확률
$P(B|A) = \frac{P(A \cap B)}{P(A)}$ (단, $P(A) > 0$ )
ex) 주사위 하나를 던져서 4이상의 수가 나왔다. 이때 그 수가 짝수일 확률?

※ $P(A \cap B) \neq P(B|A)$ 구분

곱셈법칙

$P(A \cap B) = P(B|A) * P(A)$

독립

사건 A,B가 서로 사건의 관계 없이 독립적으로 일어날 경우, 즉 $P(B|A) = P(B)$ 일 떄,
$P(A \cap B) = P(A) * P(B)$
ex) 주사위를 2개를 던질 때 2개다 앞면일 확률?

여사건

사건 $A$ 가 있을 때, $A$ 가 일어나지 않을 사건을 $A^c$
ex) $A$ = 주사위 짝수, $A^c$ = 주사위 홀수

$A$ 와 $A^c$ 는 서로 배반이다.

$P(A \cap A^c) = 0$
$P(A \cup A^c) = P(A) + P(A^c) = 1$
$P(A) = 1 - P(A^c)$

분할법칙

사건 A,B가 주어지고 $B=(A\cap B)\cup (A^c\cap B)$ 이고
$(A \cap B)$ 와 $(A^c \cap B)$ 는 서로 배반이다.
-> $P(B)$
$= P(A \cap B) + P(A^c \cap B)$
$= P(B|A)P(A) + P(B|A^c)P(A^c)$

베이즈 정리

사전확률로부터 사후확률을 구할 수 있다.
$P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}$

일반화

: 사건 $B_1,B_2,... ,B_k$ 가 표본공간 Sdml 분할 일때, 즉 $B_i$ 끼리는 배반

$P(B_r|A) =\frac{P(B_r\cap A)}{P(A)} = \frac{P(B_r\cap A)}{\sum_{i=1}^{k} P(B_i \cap A)} = \frac{P(B_r)P(A|B_r)}{\sum_{i=1}^{k} P(B_i)P(A|B_i)}$

기역의궁전

K-PALACE

이전 포스트

[TIL] Day 7 - 인공지능 수학(3)

다음 포스트

[TIL] Day 8 - 인공지능 수학(4)

dev2_TIL

통계학

모집단(population)

모수(parameter)

표본(sample)

도수(frequency)

상대도수(relative frequency)

평균

모평균 $E(X) =\mu$

표본평균 $\overline{X}$

중앙값 (median)

분산(variance)

표준편차(standard deviation)

범위(range)

사분위수(Quartile)

표준점수(Z-Score)

확률

확률의 계산법칙 (경우의 수를 얻기 힘들 때)

덧셈법칙(Addition Law)

배반(Mutaully Exclusive)

조건부확률(Conditional probability)

곱셈법칙

독립

여사건

$A$ 와 $A^c$ 는 서로 배반이다.

분할법칙

베이즈 정리

일반화

[TIL] Day 7 - 인공지능 수학(3)

[TIL] Day 8 - 인공지능 수학(5)

0개의 댓글

[TIL] Day 8 - 인공지능 수학(4)

dev2_TIL

통계학

모집단(population)

모수(parameter)

표본(sample)

도수(frequency)

상대도수(relative frequency)

평균

모평균 E(X)=μE(X) =\muE(X)=μ

표본평균 X‾\overline{X}X

중앙값 (median)

분산(variance)

표준편차(standard deviation)

범위(range)

사분위수(Quartile)

표준점수(Z-Score)

확률

확률의 계산법칙 (경우의 수를 얻기 힘들 때)

덧셈법칙(Addition Law)

배반(Mutaully Exclusive)

조건부확률(Conditional probability)

곱셈법칙

독립

여사건

AAA와 AcA^cAc는 서로 배반이다.

분할법칙

베이즈 정리

일반화

[TIL] Day 7 - 인공지능 수학(3)

[TIL] Day 8 - 인공지능 수학(5)

0개의 댓글

모평균 $E(X) =\mu$

표본평균 $\overline{X}$

$A$ 와 $A^c$ 는 서로 배반이다.