특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 의해 요약된 형태의 표현
사 대상의 범위에 따라 전수조사와 표본조사로 구분한다.
대상 집단 모두를 조사하는데 많은 비용&시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다.
조사하고자 하는 대상 집단 전체
모집단을 구성하는 개체
조사하기 위해 추출한 모집단의 일부 원소
표본 관측에 의해 구하고자 하는 모집단에 대한 정보
대상 집단의 일부를 추출해 어떤 현상을 관측/조사해 자료 수집하는 방법
집락내는 이질적 , 군집간은 동질적
모든 자료를 활용하거나 샘플링하는 방법
지역표본추출, 다단계표본추출
각 계층 고루 대표 할 수 있게 표본 추출. 이질적 모집단 원소 를 유사한 것 끼리 몇 개의 층(stratum)으로 나눈 후 각 층에서 랜덤하게 표본 추출 하는 방법.
비례층화추출법, 불비례층화추출법
표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적 에 적합 하도록 관측해 자료를 얻는 것
❓ 실험 : 특정 목적 하에서 실험 대상에게 처리한 후 그 결과 관측해 자료 수집하는 방법
측정 대상이 어느 집단에 속하는지 분류 할 때 사용 (성별, 출생지 구분)
측정 대상의 서열관계 를 관측하는 척도 (만족도, 선호도, 학년, 신용등급)
측정 대상이 갖고 있는 속성의 양을 측정 하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료 (온도, 지수)
간격(차이)에 대한 비율 이 의미를 가지는 자료, 절대적 기준인 0이 존재 하고, 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리)
순서척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다. (예 : 1등이 2등보다 성적이 높다.)
구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기 와 빼기는 가능 하지만 비율 처럼 곱하거나 나누는 것 은 불가능하다.
주어진 자료로부터 어떠한 판단이나 예측과 같은 주관 이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화 하여 객관적인 데이터로 나타내는 통계분석 방법론
Sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것
전수조사가 불가능할 때 모집단에서 표본을 추출하고 이를 근거로 확률론을 활용해 모집단의 모수들을 추론하는 것
점추정 [Point Estimation] |
모수가 특정한 값일 것이라고 추정하는 것 표본의 평균, 중위수, 최빈값 등을 사용하는 것 |
구간추정 [Interval Estimation] |
점추정의 정확성을 보완하기 위해 모수의 참값 이 포함되어 있다고 추정되는 구간을 결정 하는 것 실제 모집단의 모수 가 신뢰구간에 꼭 포함되어 있는 것은 아니다. 구해진 구간 안에 모수가 있을 가능성의 크기 [신뢰수준, Confidence Interval]가 주어져야 한다. |
모수가 특정한 구간에 있을 것이라는 개념으로 신뢰구간을 추정하는 방법
신뢰수준: 90%, 95%, 99%의 확률을 이용하는 경우가 많다.
신뢰수준 95%: 한 개의 모집단에서 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여 각 확률표본마다 신뢰구간 을 구하면, 이 무한히 많은 신뢰구간 중 95%의 신뢰구간이 미지의 모수를 포함한다는 의미.
모집단의 획률분포를 정규분포라 가정할 때, 95% 신뢰수준 하에서 모평균 μ 의 신뢰구간
모집단에 대한 귀무가설(H0)과 대립가설(H1)을 설정한 뒤, 표본관찰 또는 실험 을 통해 하나를 선택하는 과정
귀무가설이 옳다는 전제하에서 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 가설의 채택여부 결정한다.
귀무가설 [Null Hypothesis, H0] |
현재까지 주장되어온 것이나 변화나 차이가 없음 을 설명하는 가설 |
대립가설 [Alternative Hypothesis, H1] |
귀무가설에 반대되는 주장을 하는 가설로 귀무가설을
기각했을 때 받아들여지는 가설 실제 검정대상 이 되는 가설은 아니다. |
검정통계량 [Test Statistic] |
관찰된 표본으로부터 구하는 통계량 검정 시 가설의 진위 를 판단하는 기준 |
유의수준 [Significance Level, α] |
귀무가설을 기각 하게 되는 확률의 크기로 "귀무가설이 옳은데도 이를 기각하는 확률의 크기" |
유의확률 [p-value] |
귀무가설이 맞다고 정할 때, 표본통계량보다 극단적인 결과가
실제로 관측 될 확률 p-value와 α를 비교하여 귀무가설 기각 여부를 결정[p-value<α이면 기각] |
기각역 [Critical Region,C] |
귀무가설을
기각시키는 검정통계량들의 범위[반대는 채택역(acceptance region)} 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 α인 부분 |
제1종 오류와 제2종 오류는 상충관계 가 있다.
제1종 오류의 확률을 0.1, 0.05, 0.01 등으로 고정시킨 뒤, 제2종 오류가 최소 가 되도록 기각역을 설정 한다.
기각역: 귀무가설을 기각하는 통계량의 영역
제 1종 오류[Type 1 error] : 귀무가설 H0가 옳은데도 귀무가설을 기각 하게 되는 오류
제 2종 오류[Type 2 error] : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택 하게 되는 오류
귀무가설(H0)이 사실이라고 판정 | 귀무가설(H0)이 사실이 아니라고 판정 | |
귀무가설(H0)이 사실 | 옳은 결정 | 제 1종 오류(α) |
귀무가설(H0)이 사실이 X | 제2종 오류(β) | 옳은 결정 |
특정한 사건이 일어날 가능성의 척도
모든 사건 E의 확률값은 0과 1사이에 있다. 0 <= P(E) <= 1
전체 집합 Ω의 확률은 1이다. 즉, P(Ω) = 1
서로 배반인 사건들 E1, E2...의 합집합의 확률은 각 사건들의 확률의 합이다.
(배반사건 = 교집합이 공집합인 사건)
표본공간(sample space,Ω) :
나타날 수 있는 모든 결과물의 집합
원소(element)
나타날 수 있는 개개의 결과
사건(event)
표본공간의 부분집합
P(E) = n(E) / n(Ω)
확률 변수(random variable)
0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우(확률질량함수)
이산형 확률변수의 Ex): 동전 2개를 던져서 앞/뒷면이 나오는 경우의 수
이산형 확률 변수의 기대값
결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등).
기대값 E(x) = p
분산 var(x) = p(1-p)
베르누이 시행을 n번 반복했을 때 k번 성공할 확률
확률변수 x의 밀도함수가 다음과 같을 때, X는 모수가 (n,p)인 이항분포를 갖는다.
성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 n번 실패할 확률
확률변수 x의 pdf가 다음과 같이 주어질 때, x는 모수가 p인 기하분포를 가진다.
시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포(예 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률)
확률변수 x의 pdf가 다음과 같을 때 x는 모수가 λ인 포아송 분포를 가진다.
확률 변수들이 기대값으로부터 벗어나는 정도
가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)
균일분포 분포가 특정범위에서 균등하게 나타나는 분포
평균이 μ 이고, 표준편차가 σ 인 x의 확률밀도함수
표준편차가 클 경우 퍼져보이는 그래프가 나타난다.
Z= X- μ (평균)δ (표준편차)
표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다.
표본의 크기가 적을때는 표준정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서(30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.
데이터가 연속형일 경우 활용한다.
두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.
모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포이다.
두 집단 간의 동질성 검정에 활용된다. (범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용
두 집단간 분산 의 동일성 검정에 사용되는 검정 통계량의 분포이다.
확률변수는 항상 양의 값만 갖고 x2분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.
모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
가설의 설정 : 가정된 분포의 모수(모평균, 모분산 등) 에 대한 가설 설정
검정 실시 : 관측된 자료를 이용해 표본평균, 표본분산 등을 구하여 검정 실시
모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법
관측 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
가설의 설정 : 가정된 분포가 없으므로, 단지 '분포의 형태'가 동일한지 여부에 대해 가설 설정
검정 실시 : 관측값의 순위 나 관측값 차이 의 부호 등을 이용해 검정 실시
(ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 순위상관계수 등
본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[데이터 분석 전문가 가이드, 2019년 2월 8일 개정,https://logoflife.tistory.com/26]에 근거한 것임을 밝힙니다.