기술통계(Descriptive Statistics)는 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법을 의미한다.
분석에 앞서 데이터의 특성을 파악해 그 특성을 정량화함으로써 데이터를 체계적으로 요약하는 과정이 필요하다.
기술통계의 종류
중심화 경향(Central Tendency): 관찰 또는 수집된 데이터의 물리적/상대적 위치에 대한 요약
분산도 경향(Degree of Dispersion): 데이터들이 흩어진 정도에 대한 기술 및 요약
자료의 분포 형태(Shape of Distribution, Skewness): 자료의 분포 형태(치우친 정도)에 대한 기술 및 요약
1. 데이터 요약
데이터의 분포가 가지는 특성을 찾아내고 그 특징을 정량화하여 기술하는 과정으로, 주로 기초통계량을 산출하여 결과를 도출한다.
2. 표본추출
모집단(Population): 연구, 실험의 결과가 일반화된 큰 집단. 정보를 얻고자 하는 관심대상의 전체집합
표본(Sample): 모집단에서 일부를 추출하여 조사한 결과로, 원래 집단의 성질을 추측할 수 있는 자료로 정의됨
표본 추출(Sampling): 모집단으로부터 표본을 선택하는 행위.
1) 전수조사와 표본조사
(1) 전수조사
모집단 전체를 대상으로 조사하는 것. ex)인구조사
현실적으로 집단 내 모든 단위를 조사하는 것은 인력, 예산 자원 문제로 불가능하기 때문에 대부분의 통계조사는 표본조사로 이루어짐
(2) 표본조사
모집단에서 추출한 표본을 대상으로 조사를 시행하는 것
모집단의 일부가 전체를 대표할 수 있다는 근거가 명확하다면 일부 표본으로 조사를 시행하고 모집단 전체의 분석결과로 간주한다.
전수조사에 비해 비용절감
조사결과의 신속성
조사규모가 크지 않기 때문에 심도있는 조사 가능
관리가 비교적 잘 되므로 정확성이 높음
2) 표본추출 오차(Sampling Bias, Sampling Error)
표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생하는 문제이다.
(1) 과잉 대표
중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상
(2) 최소 대표
실제 모집단의 대표성을 나타내는 표본이 아닌 다른 데이터가 표본이 되는 현상
표본 추출 시 표본의 크기(Sample Size) 보다는 대표성을 가지는 표본을 추출하는 것이 중요하다.
3) 확률 표본추출 기법
모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출 확률이 주어지는 표본추출법.
모든 표본의 추출 확률을 사전에 알 수 있다.
표본으로부터 얻어지는 모집단에 대한 추정량의 통계적 정확도를 확률적으로 나타낼 수 있다.
(1) 단순무작위 추출(Simple Randim Sampling)
통계조사에서 가장 기본이 되는 표본추출법.
난수(random number)를 이용해 모집단으로부터 무작위(randomly) 추출한다.
모집단 내의 조사단위수(N)를 파악한 후 각 요소에 고유번호(random number)를 부여하고, 원하는 표본수(n)만큼 난수를 발생시켜 그 번호에 해당되는 표본을 추출한다.
모집단의 각 구성요소가 표본으로 추출될 확률은 n/N이다. (독립적 선택)
추출 모집단에 대해 사전지식이 많지 않은 경우에 사용한다.
(2) 계통추출(Systematic Sampling)
모집단에서 추출간격(Sampling Interval)을 설정하여 그 간격 사이에서 무작위로 추출하는 방법이다.
전체 모집단이 N개인 집단에서 K(K<N)의 추출간격으로 뽑는다면 N/K 수만큼의 표본이 선택될 수 있다. (1/K 계통추출법)
(3) 층화추출(Stratified Sampling)
표본조사 시 가장 많이 활용되는 표본 추출 방법으로, 모집단을 서로 겹치지 않게 여러 층(strata)으로 나눈 후 분할된 층(stratum)별로 표본을 추출한다.
집단별 분석이 필요한 경우나 모집단 전체에 대한 특성을 잘 알고 있고 그에 대한 효율적 추정이 필요한 경우 시행한다.
ex) 모집단의 남녀 성비가 3:2인 경우 표본의 성비도 3:2가 되도록 뽑는다.
특징
전체모집단에 대한 추정 뿐 아니라 각 층별 추정결과도 얻을 수 있다.
모집단을 효과적으로 층화할 경우 임의로 추출한 표본에서 구한 추정량보다 오차가 적다.
효과적인 층화 방법은?
층내는 유사한(homogeneous) 특성의 표본들로, 층별로는 이질적인(heterogeneous) 특성의 표본들이 되도록 구성하는 것이 좋다.
층내의 표본 특성이 유사하다는 것은 층 내부에 있는 단위들의 값의 변동이 적다는 것을 뜻하며 이는 추정량의 분산이 작아짐을 의미하기 때문에 추정량의 오차가 적어지게 된다.
표본의 대표성 제고 및 조사관리가 편리하고, 조사비용도 절감된다.
층화변수(Stratification Variable)
모집단을 층화할 때 각 추출단위가 어느 층에 속할지 구분하기 위해 기준으로 사용되는 변수.
-> 사전에 모집단 단위들의 정보를 쉽게 알 수 있으면서도 조사하고자 하는 주 변수와 밀접한 관련이 있는 보조변수가 되어야 한다.
질적 층화변수: 변수값에 따라 층 구분
양적 층화변수: 층의 경계점을 나누는 방법 필요
층화변수가 양적 변수인 경우 층의 최적경계점(optimum point of stratification)을 결정해야 한다.
ex) 여론조사에서 층화추출 방법으로 표본을 선택하고자 할 때, 층화변수로는 성별, 지역, 연령, 학력 등을 사용할 수 있다.
표본의 배분
층화를 한 이후에는 각 층에 표본을 몇 개씩 추출할 것인지 결정해야 한다.
방법
특징
비례배분법
- 각 층 내의 추출단위 수(층의 크기)에 비례하여 표본을 배분 - 층 내의 변동과 조사비용은 고려하지 않고 층의 크기만을 고려함 - 일반적으로 여론조사, 의식조사 등에 많이 활용 ex) 여론조사 시 한 지역의 유권자 성비가 남3, 여2라면 추출 표본의 성비도 남3, 여2로 추출
네이만배분법
- 각 층의 크기와 층별 변동의 정도를 동시에 고려해 배분 - 변동이 큰 층에 상대적으로 많은 표본을 배정
최적배분법
- 추정량의 분산을 최소화하거나 주어진 분산의 범위 내에서 비용을 최소화하도록 배분
동일배분법
- 모든 층에 동일한 수의 표본을 배분
(4) 군집추출(Cluster Sampling)
서로 다른 특성을 가진 층을 나누어 각 층에서는 동질적인 특성을 가진 표본을 추출하는 층화추출과 달리, 군집추출은 모집단을 차이가 없는 여러 군집으로 나누어 군집 내에서 서로 이질적인 특성을 갖는 표본들을 추출한다.
주로 모집단의 크기가 너무 크고 층화하기 어려운 경우에 사용한다.
ex) 특정 지역의 초등학생 사교육 실태조사를 실시하고자 할 때, 여러 초등학교 중 몇 개를 임의로 군집으로 선택, 선택된 각 학교들의 학생 전체 혹은 일부에 대한 조사를 실시한다.
군집이 잘 규정되지 않았을 경우 단순 무작위추출에 비해 표본오차가 커질 가능성이 있다.
4) 비확률 표본추출 기법
각 추출단위들이 표본으로 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법.
모집단을 정확히 규정할 수 없는 경우, 표본오차가 큰 문제가 되지 않는 경우, 조사에 앞서 진행되는 새로운 개념에 대한 탐색적 연구 등에 사용됨
비용, 시간, 조사 편리성 면에서 효율적이다
(1) 간편추출법(편의추출법, Convenience Sampling)
응답자 선정 시 조사원의 자의적인 판단에 따라 간편한 방법으로 표본을 추출함.
얻어진 표본이 모집단을 얼마나 잘 대표하는지 알 수 없고, 얻어진 통계치에 대한 통계적 정확성을 평가할 수 없다.
ex) 특정 장소를 지나가는 사람들을 대상으로 여론조사를 하는 경우
(2) 판단추출법(Judgement Sampling)
조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 생각되는 표본을 주관적으로 선정
조사자의 주관적 판단에 의해 표본이 선정되기 때문에 표본을 통해 얻은 추정치의 정확성과 신뢰도에 문제가 있음
표본의 크기가 작은 경우 추정량의 분산이 조사의 오차를 좌우하는 요인이 됨
ex) 어느 교육기관의 연구원이 국내 전체 학생들의 평균성적을 알아보기 위해 몇 학교를 나름대로 선정하는 경우
(3) 할당추출법(Quota Sampling)
조사목적과 밀접하게 관련된 조사대상자의 연령, 성별 등의 변수에 따라 모집단을 부분집단으로 구분하고, 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본을 할당.
비용이 적게 들고 간편하기 때문에 단기간 조사에 적합
ex) 어느 대학에서 학생 서비스 만족도 조사 시 각 학과별, 학년별, 성별 구성비율에 따라 표본을 구성하는 경우
(4) 눈덩이추출법(Snowball Sampling)
접근이 어렵거나 추출틀(Sampling Frame) 작성이 곤란한 특정 집단에 대한 조사에서 사용
해당 집단에 속하는 것을 사전에 알고 있는 사람들을 대상으로, 그 집단의 다른 사람들을 소개받아 조사를 진행하는 방법
ex) 조직폭력배 구성원들의 약물사용 실태를 조사하는 경우
3. 확률분포
기술통계: 분석에 필요한 데이터를 요약하고 묘사, 설명하는 통계기법
추론통계: 표본에 내포된 정보를 이용해 모집단에 대한 과학적인 추론을 하는 통계기법
확률과 확률분포는 모집단에 대한 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구이다.
1) 확률의 개념
통계적 현상: 불확정 현상을 반복관찰하거나 집단 안에서 대량으로 관찰하여 그 고유의 법칙성을 찾아내는 것이 가능한 현상을 의미한다.
확률 실험: 같은 조건 하에서 반복할 수 있는 실험이다. 시행결과는 매번 우연에 의해 달라지기 때문에 예측할 수 없지만, 가능한 모든 결과의 집합을 알 수는 있다. 반복시행의 횟수를 늘리면 시행결과들에 어떤 규칙성이 나타나는 것을 확인할 수 있다.
경우의 수
경우의 수란 확률실험 1회 시행 시 일어날 수 있는 사건의 종류를 말한다.
합의 법칙: 두 사건 A 또는 B가 일어나는 경우의 수는 A와 B가 독립일 경우 A가 일어날 경우의 수와 B가 일어날 경우의 수의 합이다.
곱의 법칙: 두 사건 A와 B가 동시에 일어나는 경우의 수는 A가 일어날 경우의 수와 B가 일어날 경우의 수의 곱이다.
순열: 서로 다른 n개의 원소에서 r개를 중복 없이 순서를 고려하여 선택하는 경우의 수
nPr=(n−r)!n!
조합: 서로 다른 n개의 원소에서 r개를 중복 없이 순서를 고려하지 않고 선택하는 경우의 수
nCr=(n−r)!r!n!
(1) 확률
확률이란 통계적 현상이 발생할 가능성에 대한 확실함의 정도를 나타내는 척도이다.
수학적 확률(Mathematical Probability)
표본공간 S의 각 사건이 일어날 가능성이 동일할 때, n(A)/n(S) 를 사건 A가 발생할 수학적 확률이라고 한다.
P(A)=n(S)n(A)
ex) 주사위를 던질 때 6이 나올 확률은 1/6이다.
통계적 확률(Statistical Probability)
일반적인 자연현상이나 사회현상에서는 각 사건의 발생가능성이 동일하지 않아서 수학적 확률을 구할 수 없는 경우가 대부분이다. 이 경우 특정 사건이 일어나는 확률을 상대도수에 의해 추정하게 된다. n회의 시행에서 특정 사건이 r회 일어났다고 하면 상대도수는 r/n으로 정의되며, 이를 통계적 확률이라고 한다.
어떤 시행을 n회 반복하고 그 중 사건 A가 일어난 횟수를 rn이라고 정의할 때, n이 증가함에 따라 rn/n이 일정한 값 p에 수렴하면 이 p를 사건 A의 통계적 확률이라 한다.
p=nrn
ex) 서울에서 출생한 남, 여 각 500명을 대상으로 연령대별 생존자 수를 조사한 결과 다음과 같다.
연령대
남자 생존자 수
여자 생존자 수
0세
500
500
30세
440
450
60세
390
410
이를 바탕으로 현재 30세인 남자가 60세까지 살아있을 통계적 확률을 계산하면 390 / 440 = 88.6% 이다.
(2) 사건(Event)
동일한 조건으로 여러 차례 반복할 수 있는 실험이나 관측을 시행이라 하고, 시행의 결과로 나타나는 결과를 사건이라 한다.
사건은 개별적인 시행으로 발생하는 결과일 수도 있고, 몇 가지의 복합된 시행 결과의 집합일 수도 있다.
어떤 사건의 발생 확률은 그 사건에 포함되어있는 각 결과의 발생 확률의 합으로 나타낸다.
ex) 두 개의 동전을 던졌을 때, 둘 중 하나만 앞면이 나올 사건의 확률은 [앞,뒤]가 나올 사건의 확률(1/4)과 [뒤,앞]이 나올 사건의 확률(1/4)의 합인 1/2가 된다.
(3) 표본공간(Sample Space)
표본공간이란 통계적 실험에서 발생 가능한 모든 실험결과들의 집합을 의미한다.
표본공간 자체는 전사건, 아무것도 포함하지 않는 사건은 공사건이라고 하고, 하나의 결과를 포함하는 사건은 근원사건이라 한다.
표본공간이 S인 확률실험에서 사건은 S의 부분집합이 된다.
ex) 두 개의 동전을 던졌을 때 표본공간 S는 다음과 같이 정의된다.
S = { (앞, 앞), (앞, 뒤), (뒤, 앞), (뒤, 뒤) }
이 때 앞 면이 적어도 한 번 나오는 사건 A는 다음과 같이 표현된다.
A = { (앞, 앞), (앞, 뒤), (뒤, 앞) }
(4) 확률의 기본성질
어떤 사건 A가 발생할 확률은 항상 0 이상이다.
표본공간 S에서 사건이 발생할 확률은 1이다.
사건 A 또는 사건 B가 발생할 확률은 각 사건이 발생할 확률의 합에서 두 사건이 동시에 발생할 확률을 뺀 값이다.
AC 는 A의 여사건으로, A가 발생하지 않는 사건을 의미한다.
존재하지 않는 사건이 일어날 확률은 0이다.
A가 B의 부분집합이면 A가 발생할 확률은 B가 발생할 확률보다 작거나 같다.
(5) 조건부 확률
조건부 확률이란 사건 B가 일어났다는 조건 하에서 다른 사건 A가 일어날 확률을 의미한다.
P(A∣B)=P(B)P(A∩B),P(B)>0
주사위를 던져서 2의 눈이 나올 확률은 1/6이지만, 나온 수가 짝수라는 조건 하에서는 확률이 1/3이 된다.
조건이 주어지지 않은 경우 표본공간은 {1, 2, 3, 4, 5, 6}이지만 조건이 주어지게 되면 표본공간이 {2, 4, 6}으로 축소되기 때문이다.
짝수라는조건하에 2의눈이나올확률=짝수일확률짝수이면서 2가나올확률=2161=31
(6) 결합 확률(확률의 곱셈)
결합 확률이란 사건 A와 B가 동시에 발생하는 확률을 의미하며, 확률의 곱셈 법칙을 따른다.
P(A)×P(B)=P(A∩B)
A와 B가 서로 독립이면, 즉 서로 영향을 주지 않는 별개의 사건이면 B가 발생했을 때 A가 발생할 조건부확률 P(A∣B)는 단순히 P(A)이기 때문에 P(A)=P(B)P(A∩B) 가 되어, 위와 같은 곱셈법칙이 성립하게 된다.
어떤 회사에서 만든 기계가 1년 내에 고장날 가능성이 20%라고 한다. 이 기계를 2대 구입했을 때, 1년 내에 두 기계가 모두 고장날 확률과 하나의 기계만 고장날 확률은 어떻게 될까?
첫 번째 기계가 고장나는 사건을 A, 두 번째 기계가 고장나는 사건을 B라고 하자. 이 때 P(A)=0.2,P(B)=0.2 이다.
두 사건은 서로 독립이므로 두 기계가 모두 고장날 확률은 P(A∩B)=P(A)∗P(B)=0.2×0.2=0.04 가 되고,
한 기계만 고장날 확률은 P(AC∩B)+P(A∩BC)=(P(AC)×P(B))+(P(A)×P(BC))=(0.8×0.2)+(0.2×0.8)=0.32 가 된다.
(7) 총확률정리(Total Probability Rule)
총확률정리란 임의의 사건 A가 발생할 확률을 k개의 조건부 확률을 이용해서 구하는 것이다. 전체확률의 법칙(Law of Total Probability)이라고도 한다.
총확률정리에 따라 임의의 사건 A가 발생할 확률을 k개의 조건부확률을 이용해 계산하면, 베이지안 법칙(Bayes' Theory)를 이용해 표본공간을 분할하는 k개의 상호독립적인 사건 B1,B2,⋯,Bk 에 대한 사후확률(Posterior Probability)을 구할 수 있다.
P(Bi)는 미리 주어진 사전확률(Prior Probability)이지만, 사건 A라는 새로운 사건이 발생하게 되면 P(Bi∣A) 를 구할 수 있고, 이게 사후확률이 된다.
베이지안 법칙은 사전에 어떤 사건 B에 대한 사전확률이 부여된 상태에서 다른 사건 A에 대한 정보가 알려진 후, 다시 사건 B에 대한 사후확률을 아래와 같이 정의하는 것이다.
단위 시간 안에 어떤 사건이 몇 번 발생한 것인지를 표현하는 이산확률분포로 ,X∼Pois(λ) 로 표기한다.
ex) 특정 시간대에 은행에 방문하는 고객 수, 하루 동안 걸려오는 전화 수 등
X를 단위시간당 발생하는 사건의 건수라고 하면 포아송분포는 평균 사건 발생 수 λ에 의해 유도된다.
확률질량함수 f(x)=x!λxe−λ
기댓값 E(X)=λ
분산 Var(X)=λ
이항분포는 n과 p 두 개의 모수에 의해 유도되는 반면 포아송분포는 하나의 모수로 정의되기 때문에 이항분포를 포아송분포로 근사시켜 확률을 구하는 경우도 있다. 경험적으로 이항확률변수는 n이 무한히 커지고 p가 매우 작을 경우(n≥30,p≤0.05)에 λ=np 가 성립하고, 즉 이항분포의 기댓값이 포아송분포를 따른다.
ex) 호텔 예약자의 5%가 예약 당일 예약을 취소한다고 하자. 객실수가 95개인 한 호텔에서 100개의 예약을 받았을 때, 5건의 예약이 취소되어 당일 호텔에 도착한 모든 사람이 객실을 이용할 수 있을 확률은 어떻게 될까?
100명의 예약자 중 예약을 취소하는 사람이 몇 명인지에 대한 확률은 X ~ B(100, 0.05)의 이항분포로 나타낼 수 있다 . n이 30 이상이고 p가 0.05 이하이기 때문에 이항분포의 포아송근사가 가능하고 λ는 100 x 0.05 = 5 가 된다.
이 때 모든 사람이 호텔에 들어갈 수 있을 확률, 즉 5명 이상이 예약을 취소할 확률은 다음과 같이 구할 수 있다. (X = 예약 취소자 수)