TIL) 22.04.17 ~ 22.04.23

한량·2022년 5월 15일
0

Today I Learned

목록 보기
3/9

04.17

MLOps

  • 쿠버네티스는 왜 쓰는가??

    • 인스턴스 컨테이너를 1000개 이상 띄울 경우에는 유용, 하지만 너무 복잡
    • 작게 띄울 때는 도커 스웜만으로도 충분, 도커만 설치하면 자동으로 깔려서 구현도 편하고 다룰 컨테이너가 적을 경우에는 용이
    • 요즘은 k3s 같은 경량화 툴이 많이 나와서 비교적 편리해진 편 + 산업계의 표준이 돼버려서 배울 필요는 있을듯..?
    • mlops 0단계 구현할 때는 필요 없다고 한다
  • MLflow 튜토리얼: https://github.com/vhrehfdl/MLflow_tutorial


04.19

확률과 통계

이산형 확률분포

  • 단순임의추출법(simple random sampling)
    • 크기가 NN개인 유한모집단에서 크기nn의 표본을 추출하는 방법의 수는 NCn_NC_n
    • NCn_NC_n에서 모든 경우가 동일한 확률로 뽑힐 때 단순임의추출법

이항 분포(binomial distribution)

  • n번의 독립적인 베르누이 시행
  • 베르누이 시행: 시행의 결과가 2개고 상호배반, 각 시행이 서로 독립일 경우
  • 확률변수 XX: nn번의 시행에서 성공한 횟수
    • nn: 시행 횟수
    • pp: 확률

  • 순열(permutation): 순서를 고려
  • 조합(combination): 순서 고려x
  • n이 고정일 때, p=1/2에 가까울수록 그래프가 좌우대칭
  • p가 고정일 때, n이 커질수록 그래프가 좌우대칭

초기하 분포(Hypergeometric distribution)

  • 크기가 NN인 유한모집단에서 MM개는 특별한 속성, 나머지 NMN-M개는 속성을 갖고있지 않을 경우

포아송 분포(Poisson distribution)

  • 확률변수 XX: 단위구간(일정한 시간, 거리, 면적, 무게 등)에서 관심의 사건이 일어나는 횟수가 다음 가정을 만족할 경우 XX는 푸아송 분포
    • 사건은 구간에서 무작위
    • 단위구간에서 2번 이상 사건이 일어날 확률은 0
    • 사건이 일어날 확률은 모두 같다
    • 한 구간에서의 사건은 다른 구간에서의 사건과 독립
  • XX의 확률질량함수
    • μ\mu: 기대값, 평균, E(x)


04.20

확률과 통계

연속형 확률분포

균등분포

지수분포

정규분포

  • μ\mu는 중심, σ\sigma는 퍼진 정도를 결정

  • 표준정규분포(Standard normal distribution): 평균이 0, 표준편차가 1인 정규분포

  • 정규분포의 성질
    • XN(μ,σ2)X \sim N(\mu, \sigma^2)일 때 임의의 상수 a,b에 대해 aX+bN(aμ+b,a2σ2)aX+b \sim N(a\mu+b, a^2\sigma^2)가 성립
    • 따라서 모든 정규분포는 표준정규분포로 변환해 확률값을 계산할 수 있음
    • X1N(μ1,σ12)X_1 \sim N(\mu_1, {\sigma_1}^2)이고 X2N(μ2,σ22)X_2 \sim N(\mu_2, {\sigma_2}^2)이며 X1,X2X_1, X_2가 서로 독립이라면 Y=X1+X2N(μ1+μ2,σ12+σ22)Y = X_1 + X_2 \sim N(\mu_1+\mu_2, {\sigma_1}^2+{\sigma_2}^2)
    • 만약 XiN(μ,σ2)X_i \sim N(\mu, \sigma^2)(identically normal)이고, 1in1 \leq i\leq n이며 서로 독립(independent)라고 하면, 표본평균 Xˉ=i=1nXin\bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n}의 분포는 XˉN(μ,σ2/n)\bar{X} \sim N(\mu, \sigma^2/n)(i.i.d)
  • 이항분포의 정규분포 근사
    • XBinomial(n,p)X \sim Binomial(n,p)일 때 (Xnp)np(1p)\frac{(X-n p)}{\sqrt{n p(1-p)}}는 근사적으로 표준정규분포를 띈다
    • 여기서 0.5는 연속화 보정
    • 일반적으로 근사화는 np5np\geq5이며, 큰 값일수록 정확해짐

profile
놀고 먹으면서 개발하기

0개의 댓글