CH02_확률분포

phillip oh·2020년 3월 31일
0

통계학도감

목록 보기
2/4
post-thumbnail

2.1 확률과 확률분포

  • 사상 : 실험이나 관측 드으이 행위(시행)에 의해 생긴 결과. 주사위 던지기에서는 주사위를 던져서 나온 '눈'이 사상에 해당한다.
  • 확률 : 어느 사상이 어느 정도 일어나기 쉬운지(우연성의 정도)를 수치화한 것.
  • 확률변수(Random Variable) : 시행해봐야 비로소 결과를 알 수 있는 변수.
    • 이산확률변수 : 주사위의 눈과 같이 값의 수가 유한한 확률변수
    • 연속확률변수 : 키와 몸무게 같이 값의 수가 무한한 확률변수
  • 확률분포(Probability Distribution) : 확률변수가 취하는 값과 그 값이 실현하는 확률의 관계를 나타낸 것.

2.2 균일분포(Uniform Distribution)

  • 각 사상이 일어나는 확률이 같은 분포 즉, 모든 확률변수 값이 같은 확률을 갖는 분포.
  1. 이산균일분포
    • 주사위를 던져 각 눈이 나올 확률
    • 다트게임에서 당선번호를 정할 때 각 번호가 적중할 확률
  2. 연속균일분포

2.3 이항분포(Binomial Distribution)

  • 성공이나 실패 처럼 결과가 두 종류밖에 없는 시행에 대한 분포.

2.4 정규분포(Normal Distribution, Guassian Distribution)

  • 평균값을 중심으로 대칭을 이루는 종 모양의 분포.
  • 이항분포의 시행횟수를 늘리면, 그 분포는 정규분포에 가까워진다.
  • 확률밀도함수(Probability Density Distribution) : 확률변수의 값(x)과 확률(p) 사이의 함수관계.

2.5 표준정규분포(Standardized Normal Distribution, Z-distribution)

  • 평균을 0, 분산을 1로 표준화한 데이터의 정규분포를 말한다. Z분포라고도 한다.
  • 이렇게 변환한 데이터를 표준화변량(Standardized Variate)이라고 한다.
  • 단위를 의식하지 않고 사용할 수 있다는 장점이 있다.

2.6 시그마 구간

  • 표준화하면, 데이터가 표준정규분포의 어디에 있는지 대략적인 위치를 알 수 있다.
  • 데이터가 3시그마 구간 밖에 있다면, 그 데이터는 거의 발생하지 않는 이상치일 가능성이 높다.

2.7 왜도와 첨도

  • 왜도와 첨도는 표준화한 분포 모양이 정규분포에서 어느 정도 벗어나 있는지 측정하기 위한 지표.
  1. 왜도(Skewness) : 분포가 좌우로 치우친 정도(비대칭도)를 나타내는 지표.
  2. 첨도(Kurtosis) : 분포의 산의 뾰족한 정도를 나타내는 지표.

2.8 포아송 분포(Poisson Distribution)

  • 시행 횟수가 아주 많고(n이 크고), 사상 발생의 확률(p)이 아주 작을 때의 이항분포이다.
  • 예를 들어, 한달 동안 생산한 물건 중 불량품의 수, 어느 교차점에서 교통사고 발생하는 수 등이 있다.

카이제곱분포(Chi-squared Distribution)

  • 카이제곱분포는 정규분포를 따르는 여러 데이터를 한꺼번에 취급할 수 있어, 분산분석에 이용할 수 있다.
  • 독립성 검증이나 적합도 검정에 사용한다.

F분포(F-distribution)

  • 독립된 두 카이제곱분포를 따르는 확률변수 비의 분포.
  • 분산비의 분포라고도 하며, 등분산검정과 분산분석 등에 주로 이용한다.

t분포(t-distribution)

  • 모분산을 알 수 없고 표본의 크기가 작을 때, 정규분포를 이용해 추정 또는 검정을 하면 결과가 틀릴 수 있다.

  • 이럴 땐, 스튜던트화 변량이 따르는 t분포를 사용한다.

  • 참고문서
    - 통계학도감(쿠리하라 신이치, 마루야마 아츠시 저)

profile
모빌리티 스타트업에서 데이터를 다루고 있습니다.

0개의 댓글