[데이터 엔지니어링 데브코스 2기] TIL-16주차 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (3)

이재호·2024년 1월 31일
0

1. 확률 기초


표본 집합 S: 실험의 결과로 발생하는 모든 결과의 집합.

확률 P: S에서 특정 사건이 발생할 확률 (P(사건)).

확률 변수 X: S의 원소 e를 X(e) = x에 대응시키는 함수.
예) S = {HH, HT, TH, TT}.

  • X(HH) = 2
  • X(HT) = 1
  • X(TH) = 1
  • X(TT) = 9
  • 여기서 x의 의미는 H의 수.
  • P[X=1] = 1/2
  • P[X<=1] = 3/4

기댓값 E: 확률 분포 p(x) 하에서 함수 f(x)의 평균값.

  • E[x] = sum(p(x)f(x)) or integral(p(x)f(x)*dx)

분산 var(x) = E[x^2] - (E[x])^2.

공분산 cov(x,y) = E_x,y[xy] - E[x]E[y].

정규 분포(Gaussian Distribution): integral(N(x | m, sig^2) * dx) = 1.

  • E[x] = m.
  • var(x) = sig^2

베르누이 분포(Bernoulli Distribution): B(x | m) = m^x * (1-m)^(1-x).

  • E[x] = m.
  • var(x) = m(1-m).
profile
천천히, 그리고 꾸준히.

0개의 댓글