가설 검정(Hypothesis test) : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설의 채택 여부를 결정하는 방법론
예측(Forecasting) : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행
(3) 확률과 확률 분포
확률 (중요)
확률 : 특정 사건이 일어날 가능성의 척도
표본 공간(Sample space, Ω) : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
원소(Element) : 나타날 수 있는 개개의 결과들
사건(Event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합
표본공간 Ω의 부분집한인 사건 E의 확률은 P(E)는 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 다음과 같이 정의함
- ex) 10개 공 중에 빨간 공이 4개고 빨간 공을 뽑을 확률 4/10 = 0.4
P(E)=n(Ω)n(E)
확률 변수(Random Variable) (중요)
특정 값이 나타날 가능성이 확률적으로 주어지는 변수
정의역(Domain)이 표본공간, 치역(Range)이 실숫값인 함수 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수(Discrete random variable)와 연속형 확률변수(Continuous random variable)로 구분된다.
보충학습
이산 확률 변수(Discrete random variable)
표본 공간(X)이 유한하거나 가산적인 무한이라면 X는 이산 확률 변수
X가 값 x를 갖는 사건의 확률을 확률 질량 함수(PMF, Probability mass function)
확률 질량 함수 공식 f(x)=P(X=x)
확률 질량 함수 특징
확률은 0과 1 사이이다.
표본공간의 합은 1이다.
임의의 구간에 있는 확률은 해당되는 구간 안의 모든 것을 더한 것이다.
연속 확률 변수(Continuous random variable)
X∈R가 실숫값의 양(quantity)이라면, 연속 확률 변수라 부른다.
누적분포함수(CDF, Cumulative Distribution Function)
누적분포함수란 확률론에서 주어진 확률분포가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.
이 특정 값이라는 것은 어떤 사건을 의미하므로 누적분포함수는 어떤 사건이 얼마나 많이/적게 나타나는지에 관한 함수라고 할 수 있다.
누적분포함수의 대표적인 특징
확률변수가 이산형/연속형과 무관하게 모든 실수값을 출력한다.
누적분포함수 공식
F(a)=P(X≤a)=∑x≤aP(x)
확률밀도함수(PDF, Probability Density Function)
확률밀도함수는 연속 사건에서 x가 주어졌을 때의 확률을 구하는 함수이다.
확률밀도함수 f(x)와 구간[a,b]에 대해서 확률 변수 X가 구간에 포함될 확률
확률밀도함수 공식
P(a≤X≤b)=∫abf(x)dx
확룔밀도함수는 두 조건을 만족해야 한다
모든 실수 값 x에 대해 f(x)≥0
∫−∞∞f(x)dx=1
확률밀도함수와 누적분포함수는 다음과 같은 수식이 성립함 F(x)∫−∞∞ f(x)=dxdF(x)
- 누적밀도함수를 미분하여 나온 도함수(derivative)를 확률밀도함수라고 함
간단 용어 정리
표본공간: 사건에서 발생 가능한 모든 결과의 집합
확률변수: 표본공간에서 일정 확률을 갖고 발생하는 사건에 수치를 일대일 대응시키는 함수
확률분포: 흩어진 확률변수를 모아 함수 형태로 만든 것
이산확률변수: 확률변수 개수가 유한해 정수 구간으로 표현되는 확률변수
연속확률변수: 확률변수 개수가 무한해 실수 구간으로 표현되는 확률변수
확률질량함수 : 이산확률변수 X의 분포를 나타내는 함수로, 함수 값이 곧 확률이다.
확률밀도함수 : 연속확률변수 X의 분포를 나타내는 함수로, 함수의 넓이가 확률이다
표준 정규 분포표(Standard Normal Distribution Table)는 P(Z>a), P(Z<b), P(a<Z<b)와 같은 확률을 편하게 계산하기 위해 확률을 정리해 놓은 표
즉,F(z)=∫f(x)dx를계산하는것이어렵기때문에f(z)값들을정리해놓은것
- 표준 정규 분포표는 누적분포함수(누적확률밀도함수)로 만들어졌디.
- Z값이 0일 경우 0.5에 해당하는 확률값을 가지게 된다.
- ex) Z값이 1이면 0.3413, 값이 1 이하일 확률이면 0.5 + 값을 더해주면 0.8413이 된다.
- ex2) 90%에 해당하는 면적은 0.5 + 0.4가 되는데, 이 때 확률이 0.4를 보면 된다. 확률이 0.4가 되는, 1.285가 된다.
(Z값이 0.5 기준일 때)'~ 이하일 확률'을 구하는 경우 (ex) P[Z<=0.61] = 0.7291
(Z값이 0 기준일 때) 0.61에 해당하는 값이 0.2291, 0.2291에 0.5를 더하면 0.7291이 된다.
(Z값이 0 기준일 때)'~ 이상일 확률'을 구하는 경우 (ex) P[Z<=0.75] = 1 - 0.7734 = 0.2266
이상일 확률을 구할 경우 전체 1에서 이하일 확률을 빼면 이상일 확률이 나온다.
'Z값이 음수일 때 확률'을 구하는 경우(대칭이라는 특성을 활용)
ex) P[Z<=-1.5] = P[Z>=1.5] = 1 - 0.9332 = 0.0668
일정구간의 확률을 구하는 경우
ex) P[-1.21<=Z<=1.57] = P[Z<=1.57] - P[Z>=1.21] = 0.9418 - 0.1131 = 0.8287
(예제) 어느 회사에서 직원들의 근무 기간을 조사하였다. 직원들의 근무기간은 평균이 11년이고 분산이 16년인 정규분포를 따른다고 한다. 이 회사에서 14년 이상 근무한 직원의 비율을 구하시오.
(Solution) 평균이 11이고 분산이 16인 정규분포를 표준정규분포로 변환한다.
P(X≥14)=P(Z≥414−11)=P(Z≥0.75)
Z값이 0.75이며 표준정규분포표에서 0.75에 해당하는 값을 찾으면 0.7734이다. "이상일 확률"을 구하는 것이므로 1 - 0.7734를 계산하면 14년 이상 근무한 직원의 비율은 22.66%이다.
지수분포(Exponential distribution)
- 분포 형태가 단조감소하는 형태를 가지는 분포
- 모수가 평균과 표준편차가 아니고 람다이다.
- 0 이상의 값들만 존재, 0 이하의 값들은 존재하지 않는다.
t-분포(t-distribution)
두 집단의 평균이 동일한지 알고자 할 때 활용하는 검정통계량
정규분포보다 더 퍼져있는 형태
자유도가 증가할수록 정규분포 형태를 띈다.
모집단의 분산을 모를 경우, 모집단의 개체 수가 작을 경우 사용한다.
x^2분포(chi-square distribution)
- 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포
- 두 집단간의 동질성 검정에 활용됨
- 범주형 자료에 대해 얻어진 관측값과 기댓값의 차이를 보는 적합성 검정에 활용
- 한쪽으로 치우쳐져 있고, 자유도가 점점 증가할수록 정규분포 형태를 띈다.
F-분포(F-distribution)
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
- 우쪽으로 꼬리가 긴 형태에서 자유도가 증가할수록 점점 짧아진다.
- 2가지 자유도를 활용해서 f-분포를 만드는데, 2가지를 같이 비교할 때 f-분포를 사용한다.