출처로는 위키에서 많이 가져옴.
확률의 공식 꼭 외우기!
기술통계학(Descriptive statistics)
추론 통계학(Inferential statistics)
1990년대부터 시작하게된 데이터 마이닝
2000년대부터 시작하게된 빅데이터
2020년대인 최근부터 AI가 크게 발달하게 됨.
변수(Variable)
질적 자료
양적 자료
데이터를 분석하는 과정 중에 가장 많이 사용하는 분석방법을 Exploratory Data Analysis 라고함.
EDA는 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임. (EDA : 분석 초기에 가장많이 사용하게되는 방법)
데이터의 그래프화 예시들
시각화 툴을 사용한 예시들
(Gartner로 검색하면 예시들이 많이 나옴)
기초 통계량
중심 경향치
평균은 모집단으로 부터 관측된 n개의 x가 주어 졌을때 아래와 같이 정의됨.
평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 한다.
표본 평균
모평균의 표기법
중앙값(median)
최빈값(mode)
산포도
범위(Range)
사분위수(quartile)
백분위수(percentile)
분산(variance)
표준 편차(standard deviation)
분산
변동계수(Coefficient of Variation : CV)
분포의 모양을 결정할 때 왜도와 첨도가 있다.
왜도(skew) : 자료의 분포가 얼마나 비대칭적인지 표현하는 지표임
왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록 좌측 꼬리가 김.
첨도(kurtosis) : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도임
첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
3보다 작을 경우에는(K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다, 첨도값이 3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단.
엑셀을 이용해서 구하는 평균, 분산, 표준편차
확률(probability)
확률의 고전적 정의
표본 공간(Sample Space)
사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일때 표본 공간의 모든 원소들이 일어날 확률이 같으면
통계적 확률 정의
확률의 성질
1) 확률의 덧셈법칙 : P(A∪B) = P(A) + P(B) - P(A∩B)
2) A와 B가 배반 사건이면, P(A∩B) = P(∮) = 0
3) A의 여사건이 A^c이면, P(A) + P(A^c) = 1
! (Factorial) : n개를 일렬로 늘여 놓은 경우의 수를 n!로 표현하며, 공식은 아래와 같다.
순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수
조합(Combination) : 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수
조건부 확률(conditional probability) : 어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률임
확률의 곱셈법칙
베이즈 정리(Bayes' Theorem)
확률 변수(random variable) : 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 으하여 변함.
일반적으로 확률변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현함.
확률 변수의 평균 : 기대값 이라고 표현하기도 하며, 수식은 아래와 같음
주사위를 던졌을때의 기대값은
확률 변수의 분산
기대값의 성질
분산의 성질
확률 분포(probability distribution) : 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수
확률 분포는 크게 이산형과 연속형으로 나뉘어진다.
이산형 균등 분포(discrete uniform distribution) : 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함.
![]각 분포들관의 관계를 필수로 알아둬야함.
베르누이 시행(Bernoulli trial) : 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 베르누이 시행이라고 함.
- 베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 갖을 때 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)라고 하며 다음과 같이 정의함.
이항분포(Binomoal distribution) : 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포임
분산
(분산)
이항 분포의 포아송 근사
기하분포(geometric distribution) : 어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름
음이향분포(negative binomial distribution) : 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포
모집단(Population), 표본(Sample)
모집단
평균 : μ : 유
분산 : σ² : 시그마 제곱
표본
평균 : X : 엑스
분산 : s² : 에스제곱
표본추출(Sampling) : 모집단으로 부터 표본을 추출하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함.
모집단에서 표본을 추출하는 방법에는 여러가지가 있음.
복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 투툴 될 수 있음.
비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random Sampling : 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법(한쪽으로 치우쳐지지 않아야한다.)
불균형데이터(Imbalanced Data)의 문제
표본분포(Sampling distribution) : 통계량들이 이루는 분포를 표본분포라고 함.
표본 평균(Sampling mean)
표본평균 X바의 기대값?
표본평균 X바의 분산?
중심극한 정리(central limit theorem)
예시적으로 표본의 크기가 5이고, 표본 평균이 3로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네개의 숫자에 의해 결정. 1,2,3,4를 골랐다면 마지막 숫자는 자동으로 5가 되야 평균이 5로 정해져있음
카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라짐 자유도가 커질수록 분포가 좌우 대칭 형태로 됨.
카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, v ≥ 30이면, 확률을 근사적으로 정규분포로 구할 수 있음.
4c가아닌 3c가 맞음.
추정(estimation) : 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 함.
추정량(estimator) : 표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 함.
구간추정에서 신뢰구간의 의미는 아래의 이미지로 이해 알 수 있음
P(-z≤Z≤z)의 CI가 0.95일 때 z=1.96임
모비율의 점추정
모비율의 구간추정
모평균 차이의 추정(점추정)
모평균 차이의 추정(구간 추정 : 대표본)
모평균 차이의 추정(구간 추정 : 소표본, 모분산을 모르는 경우)
합동 분산 추정량(pooled variance estimator) : 공통 분산의 추정량