통계학(statistics): 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
기술통계학(descriptive statistics): 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약하난 방법론
추론통계학(inferential statistics): 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특석을 추측하는 방법론
컴퓨팅 파워가 올라감에 따라 딥러닝/머신러닝 분야가 급속히 발전
데이터를 분석하는 방식도 시대의 흐름에 따라 변경/발전
변수(Variable): 조사 목적에 따라 관측된 자료값, 해당 변수에 대해 관측된 값은 자료(Data)가 됨
표본의 중심을 설명하는 값(평균, 중앙값, 최빈값, 절사 평균 등)
평균은 모집단으로부터 관측된 n개의 x가 주어졌을때 아래와 같이 정의됨
평균은 표본으로 추출된 표본평균(sample mean)이라고 하며, 모집단의 평균은 모평균, μ라고 표기한다.
평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용
변동계수는 표준편차를 평균으로 나누어서 산출하며 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함
왜도(skew): 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
첨도(kurtosis): 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
팩토리얼(Factorial, !): n개를 일렬로 늘여놓은 경우의 수
순열(Permutation): 순서를 고려하여 n개중 r개를 뽑아서 배열하는 경우의 수
조합(Combination): 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수
베르누이 시행(Bernoulli trial): 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행
이항분포(Binomial distribution): 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포임
![](https://velog.velcdn.com/images/hskim0917/post/19a00aac-e730-49c9-94f3- 4d17acdd8609/image.jpeg)
포아송 분포(Poisson distribution): 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
ex) 야구장에서 파울볼을 잡은 횟수, 버스정류장에서 특정 버스가 5분 이내 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등
포아송 분포 조건
이항 분포의 포아송 근사
기하분포(geometric distribution): 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이 때 각 시도는 베르누이 시행을 따름
확률밀도함수(probability density function): 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함
누적분포함수(cumulative density function): 확률밀도함수를 적분하면 누적분포함수가 됨
균일분포(uniform distribution): 확률 변수가 X가 a와 b 사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐
균일 분포의 평균, 분산
[정규분포(normal distribution)]: 확률밀도함수는 확률변수 X가 평균이 μ이고, 분산이 σ²인 정규분포를 따를 때 아래와 같
정규분포의 평균과 분산
평균: E[x] = μ
분산: Var[X] = σ², 표준편차: σ
X ~ N(μ, σ²)
표준 정규 분포(standard normal distribution)
정규분포의 성질
이항분포의 정규 근사
ex1) NORM.DIST(1.96, 0, 1, 1)
ex2) NORM.DIST(-1.96, 0, 1, 1)
ex3) NORM.DIST(1.96, 0, 1, 1) - NORM.DIST(0.5, 0, 1, 1)
ex4) NORM.DIST(110, 100, 10, 1) - NORM.DIST(100, 100, 1, 1)
ex5) NORM.INV(0.05, 30, 5)
ex6) NORM.INV(0.9, 30, 5)
ex) 버스 정류장에 A버스가 평균 시간당 6대가 정차한다고 가정하면
1) 10분 이상 대기할 확률은?
2) 10분에서 20분 대기할 확률은?
지수분포의 무기억성 (Memoryless Property)
지수분포와 포아송 분포의 관계
확률분포의 관계도
모집단(Population), 표본(Sample)
표본추출(Sampling): 모집단으로부터 표본을 추출하는 것 / 표본으로부터 그 특성을 찾아내고 모집단의 특성 추론 위함
1) 복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음
2) 비복원추출: 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
3) 랜덤추출: 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함 / 각 개체가 동일한 확률로 추출하는 방법
샘플링 기법
1) Over Sampling: 과도적합의 문제 발생 가능
2) Under Sampling: 모형 성능이 떨어질 수 있음
통계량(Statistic): 표본에 기초하여 걔산되는 수치 함수를 통계량이라고 함
표본푼포(Sampling distribution): 통계량들이 이루는 분포를 표본분포라고 함
표본 평균(Sample mean)
[중심극한 정리(central limit theorem)]:
카이제곱 분포(Chi-square distribution):