모든 ( X )에 대해서

만약





일 때, 임의의 상수 ( a, b )에 대해서
일 때, 표준화된 확률 변수 ( z = \frac{X - \mu}{\sigma} )는
, 이고, X와 Y가 독립일 때

-지수 분포의 PDF:
지수 분포의 CDF:

지수분포의 무기억성(Memoryless Property): 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
지수분포와 포아송 분포의 관계

확률분포의 관계도

모집단(Population), 표본(Sample)

표본추출(Sampling): 모집단으로부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함
복원추출(Sampling with replacement): 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음
비복원추출(Samplign without replacement): 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random Sampling: 모딥단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법
불균형 데이터(Imbalanced Data)의 문제: 데이터가 불균형 데이터 일 경우 문제가 생김
Sampling 기법: 관심 대상의 비율이 낮은 경우
-> Over Sampling: 적은 class의 수를 많은 class의 비율만큼 증가, 과도적합 문제 발생 가능
-> Under Sampling: 많은 class의 수를 적은 class의 비율만큼 감소, 데이터 편향 문제나, 모형의 성능이 떨어질 수 있음

표본분포(Sampling distribution): 통계량들이 이루는 분포
표본 평균(Sample mean)
표본 평균의 기대값
표본 평균의 분산
중심극한 정리(central limit theorem)

카이제곱 분포(Chi-square distribution): 확률 변수 이 표준 정규 분포를 따른다면, 확률 변수 는 자유도 인 카이제곱 분포를 따름
-> 카이제곱 분포는 범주형 자료 분석에서 활용
확률 변수 , 즉 가 자유도 인 카이제곱 분포를 따를 때:
확률 밀도 함수 (PDF):
기대값과 분산:
자유도: 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미, 일반적으로 n-1을 사용
T분포(T-distribution): 을 따르고, 일 때,
만약 확률 변수 가 정규분포를 따르고 모표준편차 를 안다면,
F분포(F distribution): 이면,
두 개의 독립적인 모집단()으로부터 각각 표본을 추출했을 때
,
F 분포는 아래와 같음:
-> 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용
이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다