
- 모든 경우의 수에 대한 특정 사건이 발생하는 비율
- 대체로 수학 외에서는, 다른 비율을 나타낼 때 처럼 백분율(%)로 나타내거나 날처럼 할,푼,리로 나타내기도 한다.
- 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가낭한 모든 경우의 수의 비
- 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립
- 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
- 어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건 A가 일어날 상대도수라고 함
- N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한 값을 사건 A의 통계적 확률 또는 경험적 확률
- 합사건(union) : 사건 A 또는 사건 B가 일어날 확률
- 곱사건(intersection) : 사건 A와 사건 B가 동시에 일어날 확률
- 배반사건(mutually exclusive event): 사건 A와 사건 B가 동시에 일어날 수 없는 확률
- 여사건(complement) : 사건 A가 일어나지 않을 확률
어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률
표본공간에서 각 사건에 실수를 대응시키는 함수
값은 하나의 사건에 대하여 하나의 값을 가지며 실험의 결과에 의하여 변함
확률 변수의 평균
2개의 확률변수의 선형 관계를 나타내는 값
확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함
확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포
각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행
성공이 1, 실패가 0의 값을 갖을 때 확률 변수 X의 분포
연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
ex) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수
- 어떤 단위구간동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일
- 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
- 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포
어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포
확률밀도함수를 적분하면 누적분포함
성질
1. 0 <= f(x) <= 1
2. 만약 b >= a, f(b) >= f(a)
3. f(b) - f(a) = P[a <= X <= b]
확률 변수가 X가 a와b 사이에서 확률 밀도 함수를 같음
단위 시간당 발생할 확률 어떤 사건의 횟수가 포아송 분포를 따르다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포
모집단으로 부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론
- Sampling 기법
- 관심의 대상의 아주 비율이 낮은 경우
1. Over Sampling:
- 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원 추출 하는 개념)
- 과도적합의 문제 발생할 수 있음
2. Under sampling:
- 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킴
- 임의로 뽑은 데이터가 편향될 수 있고, 모형의 성능이 떨어질 수 있음
모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법
모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야함, 각 개체가 모두 동일한 확률로 추출하는 방법
표본에 기초하여 계산되는 수치 함수
통계량들이 이루는 분포
표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용
서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추록, 분산분석 등에 활용
모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것
표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량
점추정(point estimation)과 구간 추정(interval estimation)
모수를 하나의 특정값으로 추정하는 방법
- 일치성(Consistency) : 표본의 크기가 모집단의 크기에 근접해야 함
- 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐
- 불편성(unbiased estimator) : 추정량이 모수와 같아야함
- 유효성(efficiency) : 추정량의 분산이 최소값이어야함
- 모수에 대한 추정량의 분산이 작을 수록 추정량이 효율적이다.- 평균오차제곱(Mean Squared Error, MSE) : 평균오차제곱이 최소값이어야
모수가 포함될 수 있는 구간을 추청하는 방법
- 신뢰구간(confidence level) : 추정값이 존재하는 구간에 모수가 포함될 확률
- 신뢰 수준은 100 * (1-a)%로 계산 하며, a는 오차 수준
- 신뢰 수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미
- 이 오차를 유의 수준(significant level)이라고 하며, p=0.05라고 함
비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 1아니면 0일때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p)임
- 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능
- 모르는 경우에는 등분산 가정이 필요(두 모집단의 분산이 같다는 가정이 필요)
- 합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정