통계

xktm-woonge·2023년 7월 12일
post-thumbnail

확률

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율
  • 대체로 수학 외에서는, 다른 비율을 나타낼 때 처럼 백분율(%)로 나타내거나 날처럼 할,푼,리로 나타내기도 한다.

고전적 정의

  • 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가낭한 모든 경우의 수의 비
  • 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립

표본 공간(Sample Space)

  • 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합

통계적 확률

  • 어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건 A가 일어날 상대도수라고 함
  • N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한 값을 사건 A의 통계적 확률 또는 경험적 확률

확률의 성질

  • 합사건(union) : 사건 A 또는 사건 B가 일어날 확률
  • 곱사건(intersection) : 사건 A와 사건 B가 동시에 일어날 확률
  • 배반사건(mutually exclusive event): 사건 A와 사건 B가 동시에 일어날 수 없는 확률
  • 여사건(complement) : 사건 A가 일어나지 않을 확률
  • !(Factorial) : n개를 일렬로 늘여 놓은 경우의 수(n!)
  • 순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수 (n P r)
  • 조합(Combination) : 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수 (n C r)

조건부확률 (conditional probability)

어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률

확률 변수(random variable)

표본공간에서 각 사건에 실수를 대응시키는 함수
값은 하나의 사건에 대하여 하나의 값을 가지며 실험의 결과에 의하여 변함

기대값

확률 변수의 평균

공분산

2개의 확률변수의 선형 관계를 나타내는 값

이산형 확률 분포

확률 분포(probability distribution)

확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함

이산형 균등 분포(discrete uniform distribution)

확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포

베르누이 시행(Bernoulli trial)

각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행

베르누이 분포(Bernoulli distribution)

성공이 1, 실패가 0의 값을 갖을 때 확률 변수 X의 분포

이항분포(Binomial distribution)

연속적인 베르누이 시행을 거쳐 나타나는 확률 분포

포아송 분소(Poisson distribution)

어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
ex) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수

조건

  1. 어떤 단위구간동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일
  2. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
  3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
  4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함

기하분포(geometric distribution)

어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포

음이항분포(negative binomial distribution)

어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포

누적분포함수(cumulative density function)

확률밀도함수를 적분하면 누적분포함
성질
1. 0 <= f(x) <= 1
2. 만약 b >= a, f(b) >= f(a)
3. f(b) - f(a) = P[a <= X <= b]

균일분포(uniform distribution)

확률 변수가 X가 a와b 사이에서 확률 밀도 함수를 같음

정규 분포(normal distribution)

표준 정규 분포(standard normal distribution)

지수분포(exponential distribution)

단위 시간당 발생할 확률 어떤 사건의 횟수가 포아송 분포를 따르다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포

모집단과 표본

표본 추출(Sampling)

모집단으로 부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론

  • Sampling 기법
    - 관심의 대상의 아주 비율이 낮은 경우
1. Over Sampling:
- 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원 추출 하는 개념)
- 과도적합의 문제 발생할 수 있음

2. Under sampling:
- 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킴
- 임의로 뽑은 데이터가 편향될 수 있고, 모형의 성능이 떨어질 수 있음

복원추출(Sampling with replacement)

모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법

비복원추출(Sampling without replacement)

모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

Random Sampling

모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야함, 각 개체가 모두 동일한 확률로 추출하는 방법

통계량(Statistic)

표본에 기초하여 계산되는 수치 함수

표본분포(Sampling distribution)

통계량들이 이루는 분포

중심극한 정리(central limit theorem)

카이제곱 분포(Chi-square distribution)

자유도(degree of freedom)

표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용

F분포(F distribution)

서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추록, 분산분석 등에 활용

추정

추정(estimation)

모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것

추정량(estimator)

표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량

모수를 추정하는 방법

점추정(point estimation)과 구간 추정(interval estimation)

점추정

모수를 하나의 특정값으로 추정하는 방법

특성

  • 일치성(Consistency) : 표본의 크기가 모집단의 크기에 근접해야 함
    • 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐
  • 불편성(unbiased estimator) : 추정량이 모수와 같아야함
  • 유효성(efficiency) : 추정량의 분산이 최소값이어야함
    - 모수에 대한 추정량의 분산이 작을 수록 추정량이 효율적이다.
  • 평균오차제곱(Mean Squared Error, MSE) : 평균오차제곱이 최소값이어야

구간 추정

모수가 포함될 수 있는 구간을 추청하는 방법

  • 신뢰구간(confidence level) : 추정값이 존재하는 구간에 모수가 포함될 확률
  • 신뢰 수준은 100 * (1-a)%로 계산 하며, a는 오차 수준
  • 신뢰 수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미
  • 이 오차를 유의 수준(significant level)이라고 하며, p=0.05라고 함

모비율의 점추정

비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 1아니면 0일때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p)임

모비율의 점 추정량을 표본 비율(sample proportion)이라고 함

모평균 차이의 추정(구간추정 :소표본, 모분산을 모르는 경우)

  • 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능
  • 모르는 경우에는 등분산 가정이 필요(두 모집단의 분산이 같다는 가정이 필요)
  • 합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정
profile
끄적끄적..

0개의 댓글