[TIL] Day 8 - 인공지능 수학(4)

기역의궁전·2021년 5월 1일
0

dev2_TIL

목록 보기
8/18

마크다운 기호 신세계.. 참고 블로그
https://datastory1.blogspot.com/2017/11/r-markdown_2.html

통계학

모집단(population)

어떤 질문이나 실험을 위한 관심 대상이 되는 개체 or 사건의 집합
ex) 전교 남학생의 키

모수(parameter)

모집단의 수치적인 특성
ex) 전교 남학생의 키 평균

표본(sample)

모집단에서 선택된 개체나 사건의 집합

도수(frequency)

어떤 사건이 실험이나 관찰로부터 발생한 횟수(빈도)
ex) 도수분포표(Frequency Distribution Table)

상대도수(relative frequency)

도수를 전체 원소의 수로 나눈 것 (확률 계산 시, 필요)

평균

list = [i for i in range(1,10)] #1,2,3,4,5,6,7,8,9
import statistics
statistics.mean(list) # 5

모평균 E(X)=μE(X) =\mu

모집단 전체 자료의 평균

표본평균 X\overline{X}

모집단에서 추출한 표본의 평균

중앙값 (median)

자료를 정렬했을 때 가운데 있는 값
(평균값은 극단 값에 영향을 받기 때문에)
n개의 자료 수,

  • n이 홀수 : n+12\frac{n+1}{2}번째 값
  • n이 짝수 : n2\frac{n}{2}번째와 n2+1\frac{n}{2}+1번째의 자료값의 평균
    (원래 존재 하지 않는 값이지만, median)
statistic.median(list)  #len(list)에 따라 홀/짝으로 나누어 알아서 계산됨.

분산(variance)

편차의 제곱의 합을 자료의 수로 나눈 값
(음의 부호를 없애기 위해 편차의 제곱으로 임의로 뻥튀기를 해 놓았다)
※ 편차 : 값과 평균의 차이

  • 자료가 모집단일 경우 => 모분산
    σ2=1Ni=1N(Xim)2\sigma^2=\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2
import numpy as np
np.var(list)
# statistics.pvariance(list) 와 동일
  • 자료가 표본일 경우 => 표본분산
    S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2
import numpy as np
np.var(list, ddof=1) # ddof = Delta Degrees of Freedom -> ddof만큼 n에서 빼준다.
# statistics.variance(list) 와 동일

표준편차(standard deviation)

분산의 양의 제곱근
(임의로 뻥튀기를 해 놓았으니 루트를 씌어 원래 차이 정도를 알기 위해)

  • 자료가 모집단일 경우 => 모표준편차
    σ=1Ni=1N(Xim)2\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2}
import numpy as np
np.std(list)
# statistics.pstdev(list) 와 동일
  • 자료가 표본일 경우 => 표본분산
    S=1n1i=1n(XiX)2S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2}
import numpy as np
np.std(list, ddof=1) # ddof = Delta Degrees of Freedom -> ddof만큼 n에서 빼준다.
# statistics.stdev(list) 와 동일

범위(range)

MAXMIN|MAX - MIN|값 차이 -> np.max(list) - np.min(list)
극단 값에 취약하다.

사분위수(Quartile)

자료를 정렬했을 때, 14,12,34\frac{1}{4},\frac{1}{2},\frac{3}{4} 위치에 있는 값.

np.quantile(list, 0.25)  #Q1 : 제 1사분위수
np.quantile(list, 0.5)  #Q2 : 제 2사분위수
np.quantile(list, 0.75)  #Q3 : 제 3사분위수
np.quantile(list, 0.6)  # 두번에 파라미터에는 0~1까지 사이의 값 무엇이든 가능

※ 사분위 범위 (interquartile range)
: Q3Q1Q_3 - Q1

표준점수(Z-Score)

표준값 z는 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다.
(음수이면 평균이하, 양수이면 평균이상이다.)

  • 모집단의 표준 값 ziz_i
    zi=xiμσz_i = \frac{x_i-\mu}{\sigma}
    μ\mu는 모집단에서의 평균이다.
    σ\sigma는 모집단에서의 표준편차이다.
import scipy.stats
scipy.stats.zscore(list)
  • 표본의 표준 값 ziz_i
    zi=xiXsz_i = \frac{x_i-\overline{X}}{s}
    X\overline{X}는 표본에서의 평균이다.
    ss는 표본에서의 표준편차이다.
import scipy.stats
scipy.stats.zscore(list, ddof=1)

확률

상대도수에 의한 정의
:똑같은 실험을 무수히 많이 반복할 때, 어떤 일이 일어나는 비율
고전적 정의
: 어떤 사건(A)이 일어날 확률 = P(A)P(A), 사건의 원소의 수 / 표본공간의 원소의 수
(단, 표본공간의 모든 원소가 일어날 확률이 같을 때)

※ Combination 조합
: 어떤 집합에서 순서에 상관없이 뽑은 원소의 집합
n개중 r개를 뽑는 경우의 수 (nr)=n!r!(nr)!\begin{pmatrix} n \\ r \end{pmatrix} = \frac{n!}{r!(n-r)!}

확률의 계산법칙 (경우의 수를 얻기 힘들 때)

덧셈법칙(Addition Law)

사건 A,B에 대하여,
P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

배반(Mutaully Exclusive)

사건 A,B가 동시에 일어날 확률이 0일 때, 즉 P(AB)=0P(A \cap B) = 0
P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)
ex) 주사위를 던져서 홀수이거나 4의 배수일 경우의 수?

조건부확률(Conditional probability)

사건 A가 일어 났을때, 다른 B사건이 일어날 확률
P(BA)=P(AB)P(A)P(B|A) = \frac{P(A \cap B)}{P(A)} (단, P(A)>0P(A) > 0 )
ex) 주사위 하나를 던져서 4이상의 수가 나왔다. 이때 그 수가 짝수일 확률?

P(AB)P(BA)P(A \cap B) \neq P(B|A) 구분

곱셈법칙

P(AB)=P(BA)P(A)P(A \cap B) = P(B|A) * P(A)

독립

사건 A,B가 서로 사건의 관계 없이 독립적으로 일어날 경우, 즉 P(BA)=P(B)P(B|A) = P(B) 일 떄,
P(AB)=P(A)P(B)P(A \cap B) = P(A) * P(B)
ex) 주사위를 2개를 던질 때 2개다 앞면일 확률?

여사건

사건 AA가 있을 때, AA가 일어나지 않을 사건을 AcA^c
ex) AA = 주사위 짝수, AcA^c = 주사위 홀수

AAAcA^c는 서로 배반이다.

  • P(AAc)=0P(A \cap A^c) = 0
  • P(AAc)=P(A)+P(Ac)=1P(A \cup A^c) = P(A) + P(A^c) = 1
  • P(A)=1P(Ac)P(A) = 1 - P(A^c)

분할법칙

사건 A,B가 주어지고 B=(AB)(AcB)B=(A\cap B)\cup (A^c\cap B) 이고
(AB)(A \cap B)(AcB)(A^c \cap B)는 서로 배반이다.
-> P(B)P(B)
=P(AB)+P(AcB)= P(A \cap B) + P(A^c \cap B)
=P(BA)P(A)+P(BAc)P(Ac)= P(B|A)P(A) + P(B|A^c)P(A^c)

베이즈 정리

사전확률로부터 사후확률을 구할 수 있다.
P(AB)=P(AB)P(B)=P(BA)P(A)P(BA)P(A)+P(BAc)P(Ac)P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}

일반화

: 사건 B1,B2,...,BkB_1,B_2,... ,B_k 가 표본공간 Sdml 분할 일때, 즉 BiB_i끼리는 배반

P(BrA)=P(BrA)P(A)=P(BrA)i=1kP(BiA)=P(Br)P(ABr)i=1kP(Bi)P(ABi)P(B_r|A) =\frac{P(B_r\cap A)}{P(A)} = \frac{P(B_r\cap A)}{\sum_{i=1}^{k} P(B_i \cap A)} = \frac{P(B_r)P(A|B_r)}{\sum_{i=1}^{k} P(B_i)P(A|B_i)}

0개의 댓글