1. 통계학이란?
숫자적 의미
- 어떤 가게의 하루 평균 이용 고객 수
- 올해 1월부터 12월까지 전국에 등록된 차량 수
- 올해 초등학교 입학생의 평균 키
- 2012년 대선 때의 투표권 자 수
학문의 한 분야
- 데이터를 수집하고 분석하며 나타내고 해석하여 결정하는 방법들의 집합
2. 통계학의 기본 용어
기본용어
- 데이터셋 ( dataset ) : 관심있는 대상을 조사한 결과에 의해 나온 숫자들의 전체 집합
- 원소 ( element ) : 데이터 셋을 이루는 구성요소
- 관찰값 ( observation ) : 원소를 통해 얻어지는 값
- 모집단 ( population ) : 관심 있는 원소들의 전체 집합
- 표본 ( sample ) : 모집단의 부분 집합으로 뽑혀진 집합 – 부분집합
- 변수 ( variable ) : 관심 있는 특성 ( characteristic )
통계학의 분야
- 기술통계학 ( descriptive statistics )
- 주어진 데이터를 도표나 그래프, 요약 측도 등으로 나타내거나 설명하는 것
- the discipline of quantitatively describing the main features of a collection of data
- aim to summarize a sample
- 추론통계학 ( inferential statistics )
- 표본으로부터 모집단에 대한 결정을 하거나 예측하는 방법들
- the process of drawing conclusions from data that is subject to random variation
3. 모집단과 표본
- 모집단 ( 목표 모집단 : target population )
- a set of entities concerning which statistical inferences are to be drawn
- example
- 모든 유권자가 선거에서 특정 후보자에게 투표할 비율 : 모든 유권자
- 우리나라 모든 대형 할인마트의 연간 총 판매액 : 모든 대형 할인마트
- 지난 5년간 우리나라에서 발간된 모든 통계학 책의 가격 : 모든 통계학 책
- 표본 ( sample )
- a subset of a population
- 모집단의 대표성
- 전수조사 ( census ) : 모집단의 모든 원소에 대한 조사
- 예 : 인구 및 주택 총 조사 – 5년마다 실시되는 국내 최대규모의 통계조사
- 표본조사 ( sample survey ) : 모집단의 일부인 표본의 원 소들을 조사, 모집단을 잘 대표할 수 있어야 함
( 편의가 있으면 결과도 엉터리 )
- 시간, 비용절약, 파괴실험인 경우
- 전수조사보다 더 정확한 결과를 얻을 수도 있다
- 표본의 크기를 정하는 방법
- 요구정밀도 결정 : 최대허용오차
- 신뢰수준 결정 : 90%이상은 모두 가능하나 주로 90%, 95%, 99%를 사용
- 모집단의 비율 P의 예측 : 예비조사의 결과( 혹은 과거 경험에 의한 결과를 기초로 예측 )나 가장 conservative한 값(즉, 가장 큰 표본의 수 – 이때 P=50%)으로 P를 사용
- 계산 : 모집단의 수=N, 표본의 수 = n
- n명을 추출하는 방법 : 표본추출
- 확률추출법 ( probability sampling )
- 어떤 원소가 표본으로 뽑힐 가능성(확률)을 구할 수 있는 방법
- 방법
- 단순랜덤추출법 ( Simple Random Sampling )
→ 모든 원소들이 표본으로 뽑힐 가능성이 동일
→ 모집단이 큰 경우에는 곤란
→ 컴퓨터 이용
- 계통추출법 ( systematic sampling )
→ 모집단 1,2, ... , N 을 n 개 구간으로 나누어서 추출
→ 표본 선택과정이 SRS보다 간단
- 집락추출법 ( cluster sampling )→ Cluster(Group)를 선택, 해당 그룹에서 SRS
- 층화추출법 ( stratified sampling )→ 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후 각 층에서 SRS
- 비확률추출법 ( nonprobability sampling )
- 모집단의 일부 요소가 선택 가능성이 없거나 선택 확률을 정확하게 결정할 수 없는 샘플링 방법
- 예 : 8시 정문 앞에서 임의로 100명 추출
- 방법
- Accidental sampling, 할당추출법(quota sampling – 모집단의 구성비율과 동일 하게 추출), purposive sampling, Panel Sampling
4. 변수의 형태(Type of Variables)
- Two types of variables according to the level of measurement
- Quantitative variables ( 양적 변수 )
- 숫자로 측정될 수 있는 변수
- 이산형 변수 ( discrete variable ) – 헤아릴 수 있는 값을 가지는 변수,
- 연속형 변수 ( continuous variable ) – 주어진 구간 안에서 임의의 값을 가 질 수 있는 변수
- Qualitative variables ( 질적변수 )
- 숫자로 측정(measure) 할 수는 없으나 범주로 나눌 수 있는 변수
- 측정(measurement)의 척도(scale)
- 명목척도 ( nominal scale )
- 측정대상이 어느 집단에 속하는지 분류하는 경우
- 숫자적 의미는 없음
- Ex_ 성별, 출생지, 직업, 학부
- 순서척도 ( 서수척도, ordinal scale )
- 서열관계를 측정하는 척도
- Ex_ 선호도 조사, 학력, 연령
- Likert scale ( 리커트 스케일 )
- 1 strongly disagree 2 disagree 3 ...
→ 질적변수지만 평균을 내도 괜찮다
- 구간척도 ( interval scale )
- 측정대상이 갖고 있는 속성의 양을 측정
- 해당 속성이 전혀 없는 상태인 절대적 원점이 존재하지 않는다
- Ex_ 섭씨온도(C) (수은의 팽창정도), 물가지수, 주가지수, 성적 (교수님의 기준에 따라 상대적)
- 비율척도 ( ratio scale )
- 절대적 원점이 존재
- 비율이 의미가 있다
- Ex_ 절대온도, 무게, 키, 나이, 상품가격, 판매량, 시간
- 통계분석의 5단계
- 자료의 수집
- 수집된 자료가 대상집단의 특성을 잘 대표하는가?
- 수집된 자료의 요약, 정리
- graph(bar chart, pie chart, ... ), 숫자요약
- 모수의 추정 : parameter, statistic, estimator
- parameter – 모집단의 특성을 나타내는 값
- statistics – 표본으로부터 구해지는 값
- 가설 검정
- 모형분석 : 회귀분석, 분산분석, 범주형 자료분석, 시계열 분석
HGU GLS학부 김헌주 교수님의 23-2 통계학 수업을 듣고 작성한 포스트이며, 첨부한 모든 사진은 교수님 수업 PPT의 사진 원본에 필기를 한 수정본입니다.