[머신러닝 인강] 6. 회귀분석(2)

Uno·2021년 5월 2일
0

이산형 확률분포

  • 베르누이 시행
    • 실험의 결과의 범주가 2가지인 경우(성공/실패)
    • X=1X=1(성공) / X=0X=0(실패)
      • f(x)=px(1p)1xf(x) = p^x(1-p)^{1-x}
    • 예) 앞면이 성공인 동전 던지기
  • 이항분포
    • 성공확률이 pp인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포
      • f(x)=n!x!(nx)!px(1p)nxf(x) = {n! \over x!(n-x)!}p^x(1-p)^{n-x}
        • nx0n \ge x \ge 0, 정수
      • 예) 동전 n번 던져 앞면의 횟수
  • 다항분포
    • 다항시행: 1회의 시행결과로 나올 수 있는 범주가 3개 이상이 되는 확률 시험
    • K개 범주의 다항시행을 n번 반복했을 때, 각 범주가 나타나는 횟수의 분포
      • f(x1,...,xk)=n!x1!...xk!p1x1...pkxkf(x_1,...,x_k) = {n! \over x_1!...x_k!}p_1^{x_1}...p_k^{x_k}
        • xK=(nk=1K1xk),pK=1k=1K1pk,0xkn,x_K = (n-\sum_{k=1}^{K-1}x_k), p_K=1-\sum_{k=1}^{K-1}p_k, 0 \le x_k \le n, 정수
    • 예) 주사위 n번 던져 각 눈이 나온 횟수
  • 포아송분포
    • 주어진 단위 구간내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수
      • 사건의 평균 발생횟수는 단위 구간에 비례
      • 두개 이상의 사건이 동시에 발생할 확률은 0에 가깝다
      • 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적
    • 평균이 μ\mu인 포아송 분포
      • f(x)=μxeμx!f(x) = {\mu^xe^{-\mu} \over x!}
      • x0,x \ge 0, 정수
    • 예) 1시간동안 걸려온 전화의 수. 100페이지안에 있는 오타의 수.

연속형 확률분포

  • 지수분포
    • 평균 소요시간이 μ\mu인 사건이 발생하기까지 걸리는 소요시간
      • f(x)=1μe1μxf(x) = {1 \over \mu}e^{-{1 \over \mu}x}
        • x0x \ge 0
  • 정규분포
    • f(x)=12πσ2e(xμ)22σ2f(x) = {1 \over \sqrt{2\pi\sigma^2}}e^{-{(x-\mu)^2 \over 2\sigma^2}}
      • x0x \ge 0
  • 표준정규분포
    • 평균이 0이고 분산이 1인 정규분포

통계적 추론

  • 점추정(Point estimation)
    • 추정량을 통해 모수를 추정
    • 예) Xˉ,s2\bar{X}, s^2 -> μ,σ2\mu, \sigma^2
  • 구간 추정(Interval estimation)
    • 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 제시
    • 신뢰수준과 구간의 길이는 반비례

통계적 검정

  • 대립가설(H1)
    • 입증하여 주장하고자하는 가설
  • 귀무가설(H0)
    • 대립가설의 반대가설
    • 귀무가설이 아니라는 충분한 증거를 데이터로부터 보임으로써 대립가설을 입증
    • 귀무가설 하에서 통계량의 분포를 아는 것이 검정의 핵심

오류의 종류

  • 1종 오류
    • 귀무가설이 맞을 때, 귀무가설을 기각하는 오류
  • 2종 오류
    • 귀무가설이 틀렸을 때, 귀무가설을 기각하지 않는 오류

검정통계량, 기각역

  • 검정 통계량
    • 표본에서 구해낼 수 있는 함수
    • 이 값을 기준으로 귀무가설 기각여부를 결정
  • 기각역
    • 검정통계량이 취하는 구간 중 귀무가설을 기각하는 구간
  • 단측검정
    • H1:μ>μ0H_1 : \mu > \mu_0
  • 양측검정
    • H1:μμ0H_1 : \mu \neq \mu_0

유의확률

  • 유의확률(P-value)
    • 주어진 검정통계량값을 기준으로 해당 값보다 대립가설을 더 선호하는 검정통계량 값이 나올 확률
    • 이 값이 유의수준보다 낮으면 귀무가설을 기각

검정통계량과 관련된 분포

  • Z통계량
    • 귀무가설: XX의평균이 μ0\mu_0이다
    • Z=Xˉμ0σ2nN(0,1)Z = {\bar{X}-\mu_0 \over \sqrt{\sigma^2 \over n}}\sim N(0,1)
      • 이 때 관측치의 수가 충분하다면(30개 이상) σ2\sigma^2s2s^2으로 대체 가능
  • t분포
    • t=Xˉμ0s2nt(n1)t = {\bar{X}-\mu_0 \over \sqrt{s^2 \over n}}\sim t(n-1)
    • 자유도가 커질수록 정규분포에 근사
  • 카이제곱 분포
    • ZN(0,1)Z\sim N(0,1)일 때,
      • Z2X(1)2,i=1kZi2X(k)2Z^2 \sim X^2_{(1)}, \sum_{i=1}^kZ_i^2 \sim X^2_{(k)}
      • f(x;k)=12k/2r(k/2)xk/21ex/2f(x;k) = {1 \over 2^{k/2}r(k/2)}x^{k/2-1}e^{-x/2}
        • x0x \ge 0
      • 확률변수의 제곱합으로 이루어진 통계량
  • F분포
    • 두 확률변수 V1,V2V_1,V_2가 자유도 k1,k2k_1,k_2이고 서로 독립인 카이제곱 분포를 따를 때,
    • F=v1/k1v2/k2F(k1,k2)F = {v_1/k_1 \over v_2/k_2} \sim F(k_1,k_2)
    • 확률변수의 제곱합을 관측치로 나눈 것의 비율로 이루어진 통계량

머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y

0개의 댓글