2021.10.19 TIL

서승원·2021년 10월 19일
0

TIL

목록 보기
2/68

2-2 데이터 시각화를 통한 EDA
데이터 시각화의 목적 : 빠른 판단, 흥미/관심 유발

3.확률과 분포

3-1 확률 기초
집합의 조건 : 명확한 기준, 집합에 속하는 원소

  • 표본점/ 표본공간 : 한번의 실험으로부터 얻을수 있는 결과 / 모든 결과의 집합
    각각 ω와 Ω로 표시한다.
  • 사상 : 표본공간의 부분집합

-확률 : 정한 조건 하에 사건,사상이 일어날 가능성의 정도 P로 표기한다.
EX) S={H,T} , A={H} 라면, P(A) = 1/2
3-2 확률 분포
확률 변수 / 확률분포 : 확률적 법칙에 따라 변화하는 값과 그 값에 대응하는 확률을 표시한 것

이산확률분포

  • 이산형 변수가 확률 변수인 확률분포
  • 상태공간 : 확률변수 X가 취할 수 있는 모든 실수들의 집합
  • 이산확률변수 : 상태공간이 유한집합, 셈을 할수 있는 무한집합일 때
  • 확률질량함수를 이용해 f(x) 꼴로 나타냄.

연속확률분포
연속형 변수를 확률 변수로 취하는 확률분포

  • 확률밀도 함수로 f(x)꼴로 나타냄.
    연속확률분포의 특징
  • 특정한 값이 될 확률은 0이다.
  • 기대값은 E(x)= μ = Σxi*P(xi)
  • 분산은 Var(x)=σ^2 = Σ[x-E(X)]^2P(X) = E(x^2)-[E(x)]^2

여러 확률 분포
-균등분포 : 확률 분포 함수가 정의 된 모든 곳에서 값이 일정
-이항분포 : 시행을 n 번 반복해 확률변수 X를 n번 시행 중에서 성공횟수로 하고 X_Bin[n,p] 로 표기한다.
-푸아송분포 : 일정한 단위시간,거리,면적 등 어떤 구간에서 어떤 사건이 발생하는 경우에 사용한다.
-지수분포 : 푸아송분포를 따르는 사건을 대기시간으로 나타냄.
-정규분포 : 종모양을 나타내는 좌우대칭의 곡선 가장 중요하고 폭넓게 사용
-t 분포 : 정규분포와 유사한 좌우 대칭의 종모양으로 자유도에 따라 형태가 다름. 표본의 수가 적을 경우 평균 검정을 위해 사용됨.(가설검정, 회귀분석 등에 활용)
-카이제곱 분포 : 서로 독립적인 표준정규분포 N(0,1)을 따르는 변들의 제곱합으로, 항상 양수이며 심하게 왼쪽으로 쏠려있고 자유도가 커질수록 정규분포와 가까워짐.
-F 분포 : 두 카이제곱분포를 비교할 때 사용되며 두 분산의 동질성 여부를 검정하거나 평균치 간의 차이 유무를 검정함. 항상 양의 값을 갖는 왼쪽으로 치우쳐진 형태로, 자유도가 커질수록 정규분포에 가까워진다.

4. 추정과 검정

4-1. 추정
추정 : 표본을 통해 모집단의 특성을 추측

대수의 법칙

  • 큰 수의 법칙으로 불리고 표본 수가 많을수록 실사건의 확률이 예측에서 오차가 줄어든다.

중심극한정리
"모집단 분포"에 상관없이 큰 표본들의 "표본 평균의 분포"가 정규 분포로 수렴한다는 점을 이용해 z값을 구해 확률값을 구할 수 있다.

신뢰구간
모수가 특정 확률로 포함 될 것이라고 주장하는 범위. 신뢰도가 95%라고 하면 해당 구간에 모수가 들어갈 확률이 95%인 것이 아닌 수많은 신뢰구간 중 평균적으로 95%가 모수를 포함하고 있을 것이라는 의미

profile
2년차 백엔드 개발자, crimy

0개의 댓글