통계학에서 자료를 연구하는 방법
자료수집 -> 자료 요약 -> 자료 분석 -> 요약 결론
모집단(Population) : 조사대상 전체 집단
표본(Sample) : 모집단의 일부(부분집합)
표본단위(Sampling Unit) : 표본을 구성하는 객체 하나하나
표본추출(Sampling) : 모집단에서 표본능 뽑는 것
표본추출단위(Sampling Unit) : 모집단을 구성하면서 표본추출의 대상이 되는 객체 하나하나
전수 조사 : 모집단 전체를 조사하는 것
표본 조사 : 모집단의 일부만 조사하는 것
단순랜덤표본 -> 모집단을 구성하고 있는 표본단위에게 뽑힐 기회를 동일하게 주면서 표본단위가 서로 독립적으로 추출되도록 하는 것
층화랜덤표본추출 -> 모집단을 집단으로 나눈 다음 각 집단으로부터 단순랜덤표본추출을 하는 방법
특성 <-> 변수
특성을 측정하는 방법 결정 -> 특성의 각 값은 숫자로 변환 -> 특성은 숫자를 값으로 갖는 변수로 변환
특성을 측정하는 방법으로 여러 가지 변수를 생각해야합니다.
설문조사의 문항 = 특성에 대한 변수 결정
자료: 변수들이 가지는 값들의 모임
모수와 통계량
자료를 요약하는 것부터 분석 시작됩니다. 표,그래프,수치로 요약합니다.
모집단의 특성치 또는 모수 -> 모집단을 전수조사한 자료로부터 변수의 분포와 관련된 요약치
통계량 -> 표본으로부터 변수의 분포와 관련된 요약치
추정 -> 표본을 추출하여 수집한 자료로부터 모수를 논리적으로 추측하는 것
추정량 -> 모수를 추정하기 위해 사용하는 통계량
추정치 -> 표본으로부터 계산한 추정 값
변수의 값을 측정하는 수준, 어느 정도 정밀하게 측정하는가를 나타내는 것
질적변수(범주형 변수)
명목척도(Nominal Scale) : 표본단위가 특정 집단에 속한다는 것 외에 의미가 없는 변수의 척도 (설문지)
순위척도(Ordinal Scale) : 변수의 값들로 크기 비교 가능하지만, 연산불가하다.
순서형 자료 -> 5점만점으로 하는 만족도, 시험점수 등 factor형
명목형 자료 -> 성별, 거주지역, 혈액형 등 factor형
양적변수(수치형 변수)
비율척도(Ratio Scale) : 모든 연산이 가능한 변수의 척도
구간척도(Interval Scale) : 구간척도의 대표적인 변수 -> 화씨나 섭씨로 측정한 온도
연속형 자료 -> 시력,키,몸무게,부피 등 numeric형
이산형 자료 -> 교통사고 건수, 질병에 걸린 환자수 등 integer형
이산변수(Discrete Variable): 변수가 가질 수 있는 값의 개수가 유한하거나 셀 수 있을 만큼 무한한 값을 가지는 변수
연속변수(Continuous Variable): 변수가 가질 수 있는 값을 모두 모으면 어떤 구간이 되어 그 값의 개수가 셀 수 없을 만큼 무한히 많은 값을 가지는 변수
종속변수 (Dependent Variable) | 반응변수(Response Variable) 최종적인 분석대상이 되는 변수 -> 결과변수
독립변수 (Independent Variable) | 설명변수 (Explanatory Variable) 성별과 연령처럼 고려하는 변수 -> 원인변수
자료를 수집할 때 조사대상이 되는 개체에 조사목적에 해당하는 항목을 조사함에 있어서 개체가 생각하는 것을 그대로 기입
연구자나 조사자가 응답결과에 개입할 수 없음
독립변수든 종속변수든 있는 그대로 개체가 생각하는 바를 기입하는 방식
표본조사는 모집단의 일부를 조사하지만 관찰에 해당됩니다.
관찰의 목적 : 모집단의 특성을 기술하는 것
독립변수가 종속변수에 어떠한 영향을 주는지 알아보고자 함
의도하지 않은 변수가 발생했을 경우
관찰 :통제 불가 , 실험: 통제 가능
외생변수(Extraneous Variable)
: 종속변수에 영향을 주지만 우리의 연구대상이 아닌 독립변수
관찰, 실험 모두 외생변수가 종속변수에 미치는 효과를 통제할 수 있어야 독립변수의 영향을 제대로 파악 가능
모집단의 분포가 알려진 경우와 분포무관 검정
모수적 검정 : 모집단의 분포가 알려져 있는 경우
비모수적 검정 : 모집단의 분포를 모를 때 분포와 무관하게 검정하는 경우
동시에 분석할 변수의 수에 따른 분석방법
일변량 자료분석 : 자료의 분포를 파악하기 위함
수치형 자료: 그림, 표, 기술통계분석(중심,산포를 위한 통계량 등)
범주형 자료: 그림, 표, 빈도분석(어떤 값이 얼마나 빈번하게 나타나는지 등)
이변량 자료분석 : 두 변수의 관계를 동시에 파악하기 위함
두 변수가 모두 범주형: 교차분석
두 변수가 모두 수치형: 상관분석(모수적 검정, 비모수적 검정)
수치형인 종속변수와 독립변수 : 단순회귀분석(모수적 검정)
범주형(2가지 값), 수치형: t 검정(모수적 검정, 비모수적 검정)
범주형(3가지 이상 값), 수치형 : 일원배치 분산분석(모수적 검정, 비모수적 검정)
다변량 자료분석 3개 이사으이 변수를 동시에 분석하는 것
하나의 수치형 종속변수와 2개의 범주형 변수 : 이원배치 분산분석
하나의 수치형 종속변수와 2개 이상의 범주형 변수 : 다원배치 분산분석
하나의 수치형 종속변수를 반복측정한 경우와 범주형 독립변수: 반복측정 분산분석
하나의 범주형 종속변수: 로지스틱 회귀분석