시리즈

통계지식

1.[통계] 확률변수, 확률분포

결과값이 확률적으로 정해지는 변수ex) 변수 x를 동전을 1회 던질 때 앞면이 나올 횟수라고 칭한다면 이는 확률변수이다.확률변수가 특정한 값을 가질 확률을 나타내는 함수ex1) 주사위를 던져서 나오는 눈의 수에 대한 확률분포를 생각해보면 확률변수 X는 1,2,3,4,5

2022년 5월 25일

2.[통계] 이산확률분포

베르누이분포 ex) 주사위를 한번 던졌을 때 1이 나온 횟수 평균 : p 분산:p(1-p) 이항분포 베르누이 분포를 여러번 한 것 ex) 주사위를 5번 던졌을 때 1이 나온 횟수 평균 : np 분산 : np(1-p) 기하분포 음이항분포 초기하분포 포아송분

2022년 5월 25일

3.[통계] 연속확률분포

균일분포

2022년 5월 26일

4.[통계] 이상치 판단 및 imputation

출처최솟값 : 제 1사분위에서 1.5 IQR1을 뺀 위치이다.제 1사분위(Q1) : 25%의 위치를 의미한다.제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미한다.제 3사분위(Q3) : 75%의 위치를 의미한다.최댓값 : 제 3사분위에서 1.5 IQR

2022년 5월 26일

5.[통계] 신뢰구간

신뢰구간을 이야기한다는 것은 구간추정을 한다는 것이다.예시를 들어보면"a%의 신뢰수준을 가지고, ±b의 표본오차를 가진다"는 말은 a%의 확률로 모수가 표본평균±b 구간안에 포함될 것이라는 뜻이다.

2022년 5월 26일

6.[통계] 최대가능도추청

확률변수가 주어졌을때 모수가 어떤 값을 가질 때 최댓값을 가지는지 찾는 것3.MLE바구니 안에 파란구슬과 빨간구슬이 들어있을 때, 10개를 추출하여보니 파란구슬이 2개 빨간구슬이 8개가 추출되었습니다.이때 바구니안에는 파란구슬과 빨간구슬이 각각 몇개있는지에 대해서 최대

2022년 5월 27일

7.[통계] 자유도

출처자유도란?자유도란 통계적 추정을할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다.예시로 살펴보자.10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고있다면?=> 자연스럽게 10번째 값이 무엇인지 알 수 있다.데이터 : 2 1 3 5 4

2022년 5월 27일

8.[통계] t분포

출처t분포를 사용하는 경우:모집단이 정규분포모평균을 추정할 것임모분산을 알 수 없음(z통계량 이용불가)표본의 크기가 작은 경우어떤 모집단이 있고, 이 모집단은 정규분포를 따르는 것 같다.이 모집단의 모평균을 추정하고 싶은데, 모분산을 몰라서 Z 통계량을 이용한 통계적

2022년 5월 27일

9.[통계] F분포

두 집단의 분산을 비교할 때 사용두 집단의 분산을 나누어서 비교한다. 1에 가까운 값일수록 두 집단의 분산이 비슷하다는 것이다.

2022년 5월 27일

10.[통계] 공분산, 상관계수

출처(https://losskatsu.github.io/statistics/cov-corr/공분산: 두개의 확률변수의 상관정도를 나타내는 값공분산이 양수이면 양의 상관관계, 음수이면 음의 상관관계를 가진다.그런데 단위가 크면 공분산이 커진다. 따라서 표준화하기

2022년 5월 27일

11.중심극한정리의 중요성

중심극한정리란 모집단이 평균이 m, 표준편차가 s인 분포를 따른다고 할 때, 표본의 크기가 충분히 크다면(보통 30이상) 표본평균의 분포는 평균이 m, 표준편차는 s/s^(1/2)인 정규분포에 가까워진다는 정리입니다. 이 정리가 중요한 이유는 모집단의 분포가 무엇이든

2022년 6월 3일

12.Bayes Theorem (베이즈 정리)

참고사전확률과 사후확률의 관계를 나타내는 정리로, 새로운 정보를 토대로 어떤 사건이 일어났다는 주장의 신뢰도를 갱신해나가는 방법이다. $$P(H|E) = \\frac{P(E|H)P(H)}{P(E)}$$조건부 확률이다. 처음엔 조건부 확률과 증거, 주장, 가능도 이런 게

2022년 6월 3일

13.R squared 설명

R squared는 회귀모델의 설명력을 나타내는 지표.$R^2 = \\frac{SSR}{SST}$ 이다. 우리가 가장 쉽게 생각할 수 있는 회귀식은 $y=\\bar{y}$이다. 이런 엉망인 회귀식일때의 오차와 데이터 학습해서 만든 회귀식의 오차를 비교해서 얼마나 개선됐

2023년 7월 17일

14.p-value

가설검정에 사용되는 값으로서, 유의수준(보통 0.05)보다 p-value가 작다면 귀무가설을 기각한다.귀무가설이 맞다는 가정하에 이러한 표본 통계값이 나올 확률을 구하고, 이 확률이 유의수준보다 작아서 이정도면 귀무가설이 맞지 않는 것 같다고 판단되면 귀무가설을 기각하

2023년 7월 18일

통계지식

1.[통계] 확률변수, 확률분포

2.[통계] 이산확률분포

3.[통계] 연속확률분포

4.[통계] 이상치 판단 및 imputation

5.[통계] 신뢰구간

6.[통계] 최대가능도추청

7.[통계] 자유도

8.[통계] t분포

9.[통계] F분포

10.[통계] 공분산, 상관계수

11.중심극한정리의 중요성

12.Bayes Theorem (베이즈 정리)

13.R squared 설명

14.p-value

15.MLE, MAP, 딥러닝

16.Probability Distribution(PMF, PDF, CDF)

17.Joint / Marginal probability distribution

18.conditional probability, Bayes' theorem