마크다운 기호 신세계.. 참고 블로그
https://datastory1.blogspot.com/2017/11/r-markdown_2.html
통계학
모집단(population)
어떤 질문이나 실험을 위한 관심 대상이 되는 개체 or 사건의 집합
ex) 전교 남학생의 키
모수(parameter)
모집단의 수치적인 특성
ex) 전교 남학생의 키 평균
표본(sample)
모집단에서 선택된 개체나 사건의 집합
도수(frequency)
어떤 사건이 실험이나 관찰로부터 발생한 횟수(빈도)
ex) 도수분포표(Frequency Distribution Table)
상대도수(relative frequency)
도수를 전체 원소의 수로 나눈 것 (확률 계산 시, 필요)
평균
list = [ i for i in range ( 1 , 10 ) ]
import statistics
statistics. mean( list )
모평균 E ( X ) = μ E(X) =\mu E ( X ) = μ
모집단 전체 자료의 평균
표본평균 X ‾ \overline{X} X
모집단에서 추출한 표본의 평균
자료를 정렬했을 때 가운데 있는 값
(평균값은 극단 값에 영향을 받기 때문에)
n개의 자료 수,
n이 홀수 : n + 1 2 \frac{n+1}{2} 2 n + 1 번째 값
n이 짝수 : n 2 \frac{n}{2} 2 n 번째와 n 2 + 1 \frac{n}{2}+1 2 n + 1 번째의 자료값의 평균
(원래 존재 하지 않는 값이지만, median)
statistic. median( list )
분산(variance)
편차의 제곱의 합을 자료의 수로 나눈 값
(음의 부호를 없애기 위해 편차의 제곱으로 임의로 뻥튀기를 해 놓았다)
※ 편차 : 값과 평균의 차이
자료가 모집단일 경우 => 모분산
σ 2 = 1 N ∑ i = 1 N ( X i − m ) 2 \sigma^2=\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2 σ 2 = N 1 ∑ i = 1 N ( X i − m ) 2
import numpy as np
np. var( list )
자료가 표본일 경우 => 표본분산
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2 S 2 = n − 1 1 ∑ i = 1 n ( X i − X ) 2
import numpy as np
np. var( list , ddof= 1 )
표준편차(standard deviation)
분산의 양의 제곱근
(임의로 뻥튀기를 해 놓았으니 루트를 씌어 원래 차이 정도를 알기 위해)
자료가 모집단일 경우 => 모표준편차
σ = 1 N ∑ i = 1 N ( X i − m ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N} (X_i-m)^2} σ = N 1 ∑ i = 1 N ( X i − m ) 2
import numpy as np
np. std( list )
자료가 표본일 경우 => 표본분산
S = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (X_i-\overline{X})^2} S = n − 1 1 ∑ i = 1 n ( X i − X ) 2
import numpy as np
np. std( list , ddof= 1 )
범위(range)
∣ M A X − M I N ∣ |MAX - MIN| ∣ M A X − M I N ∣ 값 차이 -> np.max(list) - np.min(list)
극단 값에 취약하다.
사분위수(Quartile)
자료를 정렬했을 때, 1 4 , 1 2 , 3 4 \frac{1}{4},\frac{1}{2},\frac{3}{4} 4 1 , 2 1 , 4 3 위치에 있는 값.
np. quantile( list , 0.25 )
np. quantile( list , 0.5 )
np. quantile( list , 0.75 )
np. quantile( list , 0.6 )
※ 사분위 범위 (interquartile range)
: Q 3 − Q 1 Q_3 - Q1 Q 3 − Q 1
표준점수(Z-Score)
표준값 z는 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다.
(음수이면 평균이하, 양수이면 평균이상이다.)
모집단의 표준 값 z i z_i z i
z i = x i − μ σ z_i = \frac{x_i-\mu}{\sigma} z i = σ x i − μ
μ \mu μ 는 모집단에서의 평균이다.
σ \sigma σ 는 모집단에서의 표준편차이다.
import scipy. stats
scipy. stats. zscore( list )
표본의 표준 값 z i z_i z i
z i = x i − X ‾ s z_i = \frac{x_i-\overline{X}}{s} z i = s x i − X
X ‾ \overline{X} X 는 표본에서의 평균이다.
s s s 는 표본에서의 표준편차이다.
import scipy. stats
scipy. stats. zscore( list , ddof= 1 )
확률
상대도수에 의한 정의
:똑같은 실험을 무수히 많이 반복할 때, 어떤 일이 일어나는 비율
고전적 정의
: 어떤 사건(A)이 일어날 확률 = P ( A ) P(A) P ( A ) , 사건의 원소의 수 / 표본공간의 원소의 수
(단, 표본공간의 모든 원소가 일어날 확률이 같을 때)
※ Combination 조합
: 어떤 집합에서 순서에 상관없이 뽑은 원소의 집합
n개중 r개를 뽑는 경우의 수 ( n r ) = n ! r ! ( n − r ) ! \begin{pmatrix} n \\ r \end{pmatrix} = \frac{n!}{r!(n-r)!} ( n r ) = r ! ( n − r ) ! n !
확률의 계산법칙 (경우의 수를 얻기 힘들 때)
덧셈법칙(Addition Law)
사건 A,B에 대하여,
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A \cap B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
배반(Mutaully Exclusive)
사건 A,B가 동시에 일어날 확률이 0일 때, 즉 P ( A ∩ B ) = 0 P(A \cap B) = 0 P ( A ∩ B ) = 0 는
P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B) P ( A ∪ B ) = P ( A ) + P ( B )
ex) 주사위를 던져서 홀수이거나 4의 배수일 경우의 수?
조건부확률(Conditional probability)
사건 A가 일어 났을때, 다른 B사건이 일어날 확률
P ( B ∣ A ) = P ( A ∩ B ) P ( A ) P(B|A) = \frac{P(A \cap B)}{P(A)} P ( B ∣ A ) = P ( A ) P ( A ∩ B ) (단, P ( A ) > 0 P(A) > 0 P ( A ) > 0 )
ex) 주사위 하나를 던져서 4이상의 수가 나왔다. 이때 그 수가 짝수일 확률?
※ P ( A ∩ B ) ≠ P ( B ∣ A ) P(A \cap B) \neq P(B|A) P ( A ∩ B ) = P ( B ∣ A ) 구분
곱셈법칙
P ( A ∩ B ) = P ( B ∣ A ) ∗ P ( A ) P(A \cap B) = P(B|A) * P(A) P ( A ∩ B ) = P ( B ∣ A ) ∗ P ( A )
독립
사건 A,B가 서로 사건의 관계 없이 독립적으로 일어날 경우, 즉 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P ( B ∣ A ) = P ( B ) 일 떄,
P ( A ∩ B ) = P ( A ) ∗ P ( B ) P(A \cap B) = P(A) * P(B) P ( A ∩ B ) = P ( A ) ∗ P ( B )
ex) 주사위를 2개를 던질 때 2개다 앞면일 확률?
여사건
사건 A A A 가 있을 때, A A A 가 일어나지 않을 사건을 A c A^c A c
ex) A A A = 주사위 짝수, A c A^c A c = 주사위 홀수
A A A 와 A c A^c A c 는 서로 배반이다.
P ( A ∩ A c ) = 0 P(A \cap A^c) = 0 P ( A ∩ A c ) = 0
P ( A ∪ A c ) = P ( A ) + P ( A c ) = 1 P(A \cup A^c) = P(A) + P(A^c) = 1 P ( A ∪ A c ) = P ( A ) + P ( A c ) = 1
P ( A ) = 1 − P ( A c ) P(A) = 1 - P(A^c) P ( A ) = 1 − P ( A c )
분할법칙
사건 A,B가 주어지고 B = ( A ∩ B ) ∪ ( A c ∩ B ) B=(A\cap B)\cup (A^c\cap B) B = ( A ∩ B ) ∪ ( A c ∩ B ) 이고
( A ∩ B ) (A \cap B) ( A ∩ B ) 와 ( A c ∩ B ) (A^c \cap B) ( A c ∩ B ) 는 서로 배반이다.
-> P ( B ) P(B) P ( B )
= P ( A ∩ B ) + P ( A c ∩ B ) = P(A \cap B) + P(A^c \cap B) = P ( A ∩ B ) + P ( A c ∩ B )
= P ( B ∣ A ) P ( A ) + P ( B ∣ A c ) P ( A c ) = P(B|A)P(A) + P(B|A^c)P(A^c) = P ( B ∣ A ) P ( A ) + P ( B ∣ A c ) P ( A c )
베이즈 정리
사전확률로부터 사후확률을 구할 수 있다.
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) P ( A ) + P ( B ∣ A c ) P ( A c ) P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)} P ( A ∣ B ) = P ( B ) P ( A ∩ B ) = P ( B ∣ A ) P ( A ) + P ( B ∣ A c ) P ( A c ) P ( B ∣ A ) P ( A )
일반화
: 사건 B 1 , B 2 , . . . , B k B_1,B_2,... ,B_k B 1 , B 2 , . . . , B k 가 표본공간 Sdml 분할 일때, 즉 B i B_i B i 끼리는 배반
P ( B r ∣ A ) = P ( B r ∩ A ) P ( A ) = P ( B r ∩ A ) ∑ i = 1 k P ( B i ∩ A ) = P ( B r ) P ( A ∣ B r ) ∑ i = 1 k P ( B i ) P ( A ∣ B i ) P(B_r|A) =\frac{P(B_r\cap A)}{P(A)} = \frac{P(B_r\cap A)}{\sum_{i=1}^{k} P(B_i \cap A)} = \frac{P(B_r)P(A|B_r)}{\sum_{i=1}^{k} P(B_i)P(A|B_i)} P ( B r ∣ A ) = P ( A ) P ( B r ∩ A ) = ∑ i = 1 k P ( B i ∩ A ) P ( B r ∩ A ) = ∑ i = 1 k P ( B i ) P ( A ∣ B i ) P ( B r ) P ( A ∣ B r )