통계학이란, 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
Descriptive Statistics, 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
Inferential Statistics, 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론
(모든 집단을 조사할 수 없을 때, 샘플 모집단을 지정하여 통계를 내고 이를 토대로 추론하는 방식)
수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호', '변하는 숫자'
통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 하며, 해당 변수에 대해 관측된 값들이 자료(Data)가 됨
관측된 데이터가 성별, 주소지, 업종 등 범주 형태로 구분하여 표현 가능한 데이터를 의미
관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고있으며 이산형 데이터와 연속형 데이터로 구분
Exploratory Data Analysis의 약자로, 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
데이터가 말해주는 내용을 전달한다는 의미에서, 데이터를 스토리 텔링한다고도 표현
[주요 시각화 방법]
통계량(statistic)은 표본으로 산출한 값으로, 기술통계량으로도 표현함
통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음
표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 중심 경향치라고 함
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 함
평균과 같이 자주 사용하는 값, 표본으로부터 관측치를 크기 순으로 나열했을 때 가운데에 위치하는 값을 의미함
관측치 중 가장 많이 관측되는 값, 옷사이즈와 같이 명목형 데이터의 경우 사용
데이터가 어떻게 흩어져 있는지를 중심경향치와 함께 산포에 대한 측도를 같이 고려해야함
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음
전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)라고 함
전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값
제p분위수는 p%에 위치한 자료값을 의미
데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도로,
데이터의 각각의 값들의 편차 제곱합으로 계산
분산에 제곱근(루트)을 적용한 값
모집단의 분산
평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용함
변동계수는 표준편차를 평균으로 나누어서 산출, 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교 (std/var)
자료의 분포가 얼마나 비대칭적인지 표현하는 지표
왜도가 0이면 좌우 대칭, 0에서 클수록 우측 꼬리가 길고(positive skew) 0보다 작을수록 좌측 꼬리가 김(negative skew)
확률 분포의 꼬리가 두꺼운 정도를 나타내는 척도
첨도값(K)이 3에 가까우면 산포도가 정규 분포에 가깝고, 3보다 작을 경우(K<3) 산포는 정규분포보다 꼬리가 얇은 분포, 첨도값이 3보다 큰 양수이면 정규 분포보다 꼬리가 두꺼운 분포로 판단
모든 경우의 수에 대한 특정 사건이 발생하는 비율
어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합 (S)
어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 이를 사건 A가 일어날 상대도수라고 함
N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 A의 통계적 확률 또는 경험적 확률이라고 함
Random Variable, 표본 공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
기대값 이라고도 표현, 경우의 수 x에 발생 확률 P를 곱한 수치를 모두 더한 값
2개의 확률 변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐
probability distribution, 확률 변수 X가 취할 수 있는 모든 값과, 그 값이 나타날 확률을 표현한 함수
Discrete Uniform Distribution, 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 뜻함 (X가 등장할 확률이 1/n인 경우)
Bernoulli trial, 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행을 뜻함
성공이 1, 실패가 0의 값을 가질 때 확률 변수 X의 분포를 베르누이 분포라고 함
<<>>
모집단(Population) / 표본(Sample)
인구를 예시로 들 경우 전체 인구가 모집단, 그 중 일부 인원을 추출한 것이 표본
타겟 데이터의 적은 class의 수를 많은 class의 비율만큼 증가시킴 (일정 비율이 될 때까지 복원 추출하는 개념)
이 경우, 과도적합의 문제가 발생할 수 있음
타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킴
이 경우 임의로 뽑은 데이터가 편향될 수 있고, 모형의 성능이 떨어질 수 있음
표본에 기초하여 계산되는 수치 함수를 뜻함
통계량들이 이루는 분포
표본수 - 제약조건의 수, 또는 표본수 - 추정해야하는 모수의 수를 의미하며 일반적으로 n-1을 사용함
모집단의 모수를 모를 경우 표본으로 추출된 통계량의 모집단의 근사값으로 사용하는 것을 뜻함
표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 함
모수를 하나의 특정값으로 추정하는 방법
[대표 성질]
모두사 포함될 수 있는 구간을 추정하는 방법
비율에 대한 추정으로, 우리가 원하는 속성(class)에 속하면 1, 아니면 0일 때,
1의 속성을 갖는 것의 개수를 X라고 하면 X ~B(n,p)이고,
이 때 모비율의 점 추정량을 표본 비율(sample proportion)이라고 함
모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, n(1-p)>5를 동시에 만족해야함