통계 스터디 노트 - Basic

김세하·2024년 7월 2일

통계학

통계학이란, 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

기술 통계학

Descriptive Statistics, 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론

추론 통계학

Inferential Statistics, 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론
(모든 집단을 조사할 수 없을 때, 샘플 모집단을 지정하여 통계를 내고 이를 토대로 추론하는 방식)

데이터

변수

수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호', '변하는 숫자'
통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 하며, 해당 변수에 대해 관측된 값들이 자료(Data)가 됨

질적 자료

관측된 데이터가 성별, 주소지, 업종 등 범주 형태로 구분하여 표현 가능한 데이터를 의미

양적 자료

관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고있으며 이산형 데이터와 연속형 데이터로 구분

데이터 탐색 (EDA)

Exploratory Data Analysis의 약자로, 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법

데이터 분석 프로젝트 초기, 가설 수립 및 적절한 모델, 기법 선정 시 사용
변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

데이터 시각화

데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
데이터가 말해주는 내용을 전달한다는 의미에서, 데이터를 스토리 텔링한다고도 표현

[주요 시각화 방법]

시간 시각화 : 막대 그래프, 누적 막대 그래프, 점 그래프 등
분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프 등
관계 시각화 : 스캐터 플롯, 버블 차트, 히스토그램 등
비교 시각화 : 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법 등
공간 시각화 : 지도 맵핑

데이터의 기초 통계량

기초 통계량

통계량(statistic)은 표본으로 산출한 값으로, 기술통계량으로도 표현함
통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음

중심 경향치

표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 중심 경향치라고 함
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 함

중앙값(median)

평균과 같이 자주 사용하는 값, 표본으로부터 관측치를 크기 순으로 나열했을 때 가운데에 위치하는 값을 의미함

관측치가 홀수일 경우 : 가장 중앙에 위치하는 값이 중앙값
관측치가 짝수일 경우 : 가운데 두 개의 값을 산술 평균한 값이 중앙값

최빈값(mode)

관측치 중 가장 많이 관측되는 값, 옷사이즈와 같이 명목형 데이터의 경우 사용

산포도

데이터가 어떻게 흩어져 있는지를 중심경향치와 함께 산포에 대한 측도를 같이 고려해야함
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

사분위수(quartile)

전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)라고 함

사분위수 범위(interquartile range) : IQR = 제3사분위수(Q3) - 제1사분위수(Q1)

백분위수(percentile)

전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값
제p분위수는 p%에 위치한 자료값을 의미

분산(variance)

데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도로,
데이터의 각각의 값들의 편차 제곱합으로 계산

표준 편차(standard deviation)

분산에 제곱근(루트)을 적용한 값

모분산

모집단의 분산

변동계수(Coefficient of Variation : CV)

평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용함
변동계수는 표준편차를 평균으로 나누어서 산출, 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교 (std/var)

왜도(skew)

자료의 분포가 얼마나 비대칭적인지 표현하는 지표
왜도가 0이면 좌우 대칭, 0에서 클수록 우측 꼬리가 길고(positive skew) 0보다 작을수록 좌측 꼬리가 김(negative skew)

첨도 (kurtosis)

확률 분포의 꼬리가 두꺼운 정도를 나타내는 척도
첨도값(K)이 3에 가까우면 산포도가 정규 분포에 가깝고, 3보다 작을 경우(K<3) 산포는 정규분포보다 꼬리가 얇은 분포, 첨도값이 3보다 큰 양수이면 정규 분포보다 꼬리가 두꺼운 분포로 판단

확률

확률(probability)

모든 경우의 수에 대한 특정 사건이 발생하는 비율

표본 공간(sample space)

어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합 (S)

동전 던지기의 경우, S = {앞면, 뒷면}
주사위 던지기의 경우, S = {1,2,3,4,5,6}

통계적 확률 정의

어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 이를 사건 A가 일어날 상대도수라고 함

N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 A의 통계적 확률 또는 경험적 확률이라고 함

확률의 성질

확률의 덧셈법칙 : P(A∪B) = P(A)+P(B)-P(A∩B)
A와 B가 배반 사건(공집합이 없는 경우)이면, P(A∩B) = P(∮) = 0
A의 여사건이 A^c이면, P(A) + P(A^c) = 1
확률의 곱셉법칙 : P(A∩B) = P(A) x P(B|A) = P(B) x P(A|B)
※ P(B|A) : B가 일어난 상황에 A가 발생할 확률
사건 A와 B가 독립일 경우, P(A∩B) = P(A) * P(B)

확률 변수

Random Variable, 표본 공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함

확률 변수는 X, Y등 대문자로 표현
확률 변후의 특정 값은 x, y등 소문자로 표현
이산 확률 변수 : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
연속 확률 변수 : 연속형 또는 무한대와 같이 셀 수 없는 경우

확률 변수의 평균

기대값 이라고도 표현, 경우의 수 x에 발생 확률 P를 곱한 수치를 모두 더한 값

공분산

2개의 확률 변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐

확률 분포

probability distribution, 확률 변수 X가 취할 수 있는 모든 값과, 그 값이 나타날 확률을 표현한 함수

이산형 확률 분포

이산형 균등 분포

Discrete Uniform Distribution, 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 뜻함 (X가 등장할 확률이 1/n인 경우)

이산형 균등분포의 기대값 : (n+1)/2
이산형 균등분포의 분산 : (n^2-1)/12

베르누이 시행

Bernoulli trial, 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행을 뜻함
성공이 1, 실패가 0의 값을 가질 때 확률 변수 X의 분포를 베르누이 분포라고 함

<<>>

모집단과 표본

모집단(Population) / 표본(Sample)
인구를 예시로 들 경우 전체 인구가 모집단, 그 중 일부 인원을 추출한 것이 표본

표본추출(Sampling) : 모집단으로부터 표본을 추출하는 행위, 표본으로부터 특성을 찾아내고 모집단의 특성을 추론
복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법, 동일한 표본이 추출될 수 있음
비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random Sampling : 편향되지 않은, 동일한 확률로 표본을 추출하는 방법

Sampling 기법

Over Sampling

타겟 데이터의 적은 class의 수를 많은 class의 비율만큼 증가시킴 (일정 비율이 될 때까지 복원 추출하는 개념)
이 경우, 과도적합의 문제가 발생할 수 있음

과도적합 : 지나치게 많은 변수를 하나하나 고려하는 등, 너무 적합한 모형이 생성되어, 실제 데이터 대상으로는 그 실용성이 떨어지는 문제

Under Sampling

타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킴
이 경우 임의로 뽑은 데이터가 편향될 수 있고, 모형의 성능이 떨어질 수 있음

표본 분포

통계량

표본에 기초하여 계산되는 수치 함수를 뜻함

표본분포

통계량들이 이루는 분포

자유도

표본수 - 제약조건의 수, 또는 표본수 - 추정해야하는 모수의 수를 의미하며 일반적으로 n-1을 사용함

추정

추정(estimation)

모집단의 모수를 모를 경우 표본으로 추출된 통계량의 모집단의 근사값으로 사용하는 것을 뜻함

추정량(estimator)

표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 함

점 추정(point estimation)

모수를 하나의 특정값으로 추정하는 방법

[대표 성질]

일치성(consistency) : 표본의 크기가 모집단의 크기에 근접해야함
불편성(unbiased estimator) : 추정량이 모수와 같아야함
유효성(efficiency) : 추정량의 분산이 최소값이어야함
평균오차제곱(Mean Squared Error) : 평균오차제곱이 최소값이어야함

구간 추정(interval estimation)

모두사 포함될 수 있는 구간을 추정하는 방법

신뢰구간(confidence level) : 추정값이 존재하는 구간에 모수가 포함될 확률
유의 수준(significant level) : 측정된 값의 오차가 발생할 확률 (신뢰 수준을 제외한 나머지 오차)

모비율의 점 추정

비율에 대한 추정으로, 우리가 원하는 속성(class)에 속하면 1, 아니면 0일 때,
1의 속성을 갖는 것의 개수를 X라고 하면 X ~B(n,p)이고,
이 때 모비율의 점 추정량을 표본 비율(sample proportion)이라고 함

모비율의 구간 추정

모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, n(1-p)>5를 동시에 만족해야함

김세하

이전 포스트

SQL 스터디 노트 - 심화

다음 포스트