결과값이 확률적으로 정해지는 변수ex) 변수 x를 동전을 1회 던질 때 앞면이 나올 횟수라고 칭한다면 이는 확률변수이다.확률변수가 특정한 값을 가질 확률을 나타내는 함수ex1) 주사위를 던져서 나오는 눈의 수에 대한 확률분포를 생각해보면 확률변수 X는 1,2,3,4,5
베르누이분포 ex) 주사위를 한번 던졌을 때 1이 나온 횟수 평균 : p 분산:p(1-p) 이항분포 베르누이 분포를 여러번 한 것 ex) 주사위를 5번 던졌을 때 1이 나온 횟수 평균 : np 분산 : np(1-p) 기하분포 음이항분포 초기하분포 포아송분
균일분포
출처최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치이다.제 1사분위(Q1) : 25%의 위치를 의미한다.제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미한다.제 3사분위(Q3) : 75%의 위치를 의미한다.최댓값 : 제 3사분위에서 1.5 IQR
신뢰구간을 이야기한다는 것은 구간추정을 한다는 것이다.예시를 들어보면"a%의 신뢰수준을 가지고, ±b의 표본오차를 가진다"는 말은 a%의 확률로 모수가 표본평균±b 구간안에 포함될 것이라는 뜻이다.
확률변수가 주어졌을때 모수가 어떤 값을 가질 때 최댓값을 가지는지 찾는 것3.MLE바구니 안에 파란구슬과 빨간구슬이 들어있을 때, 10개를 추출하여보니 파란구슬이 2개 빨간구슬이 8개가 추출되었습니다.이때 바구니안에는 파란구슬과 빨간구슬이 각각 몇개있는지에 대해서 최대
출처자유도란?자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.예시로 살펴보자.10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면?=> 자연스럽게 10번째 값이 무엇인지 알 수 있다.데이터 : 2 1 3 5 4
출처t분포를 사용하는 경우:모집단이 정규분포모평균을 추정할 것임모분산을 알 수 없음(z통계량 이용불가)표본의 크기가 작은 경우어떤 모집단이 있고, 이 모집단은 정규분포를 따르는 것 같다.이 모집단의 모평균을 추정하고 싶은데, 모분산을 몰라서 Z 통계량을 이용한 통계적
두 집단의 분산을 비교할 때 사용두 집단의 분산을 나누어서 비교한다. 1에 가까운 값일수록 두 집단의 분산이 비슷하다는 것이다.
출처(https://losskatsu.github.io/statistics/cov-corr/공분산: 두개의 확률변수의 상관정도를 나타내는 값공분산이 양수이면 양의 상관관계, 음수이면 음의 상관관계를 가진다.그런데 단위가 크면 공분산이 커진다. 따라서 표준화하기
중심극한정리란 모집단이 평균이 m, 표준편차가 s인 분포를 따른다고 할 때, 표본의 크기가 충분히 크다면(보통 30이상) 표본평균의 분포는 평균이 m, 표준편차는 s/s^(1/2)인 정규분포에 가까워진다는 정리입니다. 이 정리가 중요한 이유는 모집단의 분포가 무엇이든
참고사전확률과 사후확률의 관계를 나타내는 정리로, 새로운 정보를 토대로 어떤 사건이 일어났다는 주장의 신뢰도를 갱신해나가는 방법이다. $$P(H|E) = \\frac{P(E|H)P(H)}{P(E)}$$조건부 확률이다. 처음엔 조건부 확률과 증거, 주장, 가능도 이런 게
R squared는 회귀모델의 설명력을 나타내는 지표.$R^2 = \\frac{SSR}{SST}$ 이다. 우리가 가장 쉽게 생각할 수 있는 회귀식은 $y=\\bar{y}$이다. 이런 엉망인 회귀식일때의 오차와 데이터 학습해서 만든 회귀식의 오차를 비교해서 얼마나 개선됐
가설검정에 사용되는 값으로서, 유의수준(보통 0.05)보다 p-value가 작다면 귀무가설을 기각한다.귀무가설이 맞다는 가정하에 이러한 표본 통계값이 나올 확률을 구하고, 이 확률이 유의수준보다 작아서 이정도면 귀무가설이 맞지 않는 것 같다고 판단되면 귀무가설을 기각하
$\\theta$ : 추정하려는 분포의 파라미터$x$ : 우리가 가지고 있는 데이터$p(\\theta|x)$ : 사후확률, 관측치 x가 주어졌을때 theta(=수식을 구성하는 parameters)를 가지는 확률$p(\\theta)$ : 사전확률, 관측치 x를 통해 특정
확률변수(Random Variable)특정 확률시험에서 발생가능한 결과를 수치화하여 나타낸 변수확률분포함수(Probability distribution)확률변수가 가질 수 있는 모든 값에 대한 확률을 나타내는 분포이산확률변수(discrete random variable
두 가지 이상의 확률변수로 정의되는 확률분포.$f(x,y) = P(X=x, Y=y)=P(X=x \\cap Y=y)$각 확률변수가 독립일 때 $P\_{XY}(x,y) = P(X=x, Y=y) = P(X=x) \* P(Y=y)$각 주변확률분포의 곱으로 표현될 수 있다.jo
조건부 확률.조건부확률은 한 사건이 일어났다는 가정하에 다른 사건이 일어날 확률을 의미한다.사건 B가 일어났다는 가정하에 사건 A가 일어날 조건부확률은 다음과 같이 나타낸다.$P(A\\mid B) = \\frac{P(A\\cap B)}{P(B)}$$P(A \\cap B