[ Statistics ] 01. Introduction

38A·2023년 9월 18일
0

통계학

목록 보기
1/4
post-thumbnail

1. 통계학이란?

숫자적 의미

  • 어떤 가게의 하루 평균 이용 고객 수
  • 올해 1월부터 12월까지 전국에 등록된 차량 수
  • 올해 초등학교 입학생의 평균 키
  • 2012년 대선 때의 투표권 자 수

학문의 한 분야

  • 데이터를 수집하고 분석하며 나타내고 해석하여 결정하는 방법들의 집합

2. 통계학의 기본 용어

기본용어

  • 데이터셋 ( dataset ) : 관심있는 대상을 조사한 결과에 의해 나온 숫자들의 전체 집합
  • 원소 ( element ) : 데이터 셋을 이루는 구성요소
  • 관찰값 ( observation ) : 원소를 통해 얻어지는 값
  • 모집단 ( population ) : 관심 있는 원소들의 전체 집합
  • 표본 ( sample ) : 모집단의 부분 집합으로 뽑혀진 집합 – 부분집합
  • 변수 ( variable ) : 관심 있는 특성 ( characteristic )

통계학의 분야

  • 기술통계학 ( descriptive statistics )
    • 주어진 데이터를 도표나 그래프, 요약 측도 등으로 나타내거나 설명하는 것
    • the discipline of quantitatively describing the main features of a collection of data
    • aim to summarize a sample
  • 추론통계학 ( inferential statistics )
    • 표본으로부터 모집단에 대한 결정을 하거나 예측하는 방법들
    • the process of drawing conclusions from data that is subject to random variation

3. 모집단과 표본

  • 모집단 ( 목표 모집단 : target population )
    • a set of entities concerning which statistical inferences are to be drawn
    • example
      • 모든 유권자가 선거에서 특정 후보자에게 투표할 비율 : 모든 유권자
      • 우리나라 모든 대형 할인마트의 연간 총 판매액 : 모든 대형 할인마트
      • 지난 5년간 우리나라에서 발간된 모든 통계학 책의 가격 : 모든 통계학 책
  • 표본 ( sample )
    • a subset of a population
    • 모집단의 대표성

  • 전수조사 ( census ) : 모집단의 모든 원소에 대한 조사
    • 예 : 인구 및 주택 총 조사 – 5년마다 실시되는 국내 최대규모의 통계조사
  • 표본조사 ( sample survey ) : 모집단의 일부인 표본의 원 소들을 조사, 모집단을 잘 대표할 수 있어야 함
    ( 편의가 있으면 결과도 엉터리 )
    • 시간, 비용절약, 파괴실험인 경우
    • 전수조사보다 더 정확한 결과를 얻을 수도 있다

  • 표본의 크기를 정하는 방법
    • 요구정밀도 결정 : 최대허용오차
      • e = 10%
    • 신뢰수준 결정 : 90%이상은 모두 가능하나 주로 90%, 95%, 99%를 사용
      • 신뢰수준 100 (1-α) % = 95%
    • 모집단의 비율 P의 예측 : 예비조사의 결과( 혹은 과거 경험에 의한 결과를 기초로 예측 )나 가장 conservative한 값(즉, 가장 큰 표본의 수 – 이때 P=50%)으로 P를 사용
    • 계산 : 모집단의 수=N, 표본의 수 = n

  • n명을 추출하는 방법 : 표본추출
    • 확률추출법 ( probability sampling )
      • 어떤 원소가 표본으로 뽑힐 가능성(확률)을 구할 수 있는 방법
      • 방법
        • 단순랜덤추출법 ( Simple Random Sampling )
          → 모든 원소들이 표본으로 뽑힐 가능성이 동일
          → 모집단이 큰 경우에는 곤란
          → 컴퓨터 이용
        • 계통추출법 ( systematic sampling )
          → 모집단 1,2, ... , N 을 n 개 구간으로 나누어서 추출
          → 표본 선택과정이 SRS보다 간단
        • 집락추출법 ( cluster sampling )→ Cluster(Group)를 선택, 해당 그룹에서 SRS
        • 층화추출법 ( stratified sampling )→ 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후 각 층에서 SRS
    • 비확률추출법 ( nonprobability sampling )
      • 모집단의 일부 요소가 선택 가능성이 없거나 선택 확률을 정확하게 결정할 수 없는 샘플링 방법
      • 예 : 8시 정문 앞에서 임의로 100명 추출
      • 방법
        • Accidental sampling, 할당추출법(quota sampling – 모집단의 구성비율과 동일 하게 추출), purposive sampling, Panel Sampling

4. 변수의 형태(Type of Variables)

  • Two types of variables according to the level of measurement
    • Quantitative variables ( 양적 변수 )
      • 숫자로 측정될 수 있는 변수
      • 이산형 변수 ( discrete variable ) – 헤아릴 수 있는 값을 가지는 변수,
        • 예 - 자동차 대수, 걸려온 전화 수
      • 연속형 변수 ( continuous variable ) – 주어진 구간 안에서 임의의 값을 가 질 수 있는 변수
        • 예 - 시간, 가격
    • Qualitative variables ( 질적변수 )
      • 숫자로 측정(measure) 할 수는 없으나 범주로 나눌 수 있는 변수
  • 측정(measurement)의 척도(scale)
    • 명목척도 ( nominal scale )
      • 측정대상이 어느 집단에 속하는지 분류하는 경우
      • 숫자적 의미는 없음
      • Ex_ 성별, 출생지, 직업, 학부
    • 순서척도 ( 서수척도, ordinal scale )
      • 서열관계를 측정하는 척도
      • Ex_ 선호도 조사, 학력, 연령
      • Likert scale ( 리커트 스케일 )
        • 1 strongly disagree 2 disagree 3 ...
          → 질적변수지만 평균을 내도 괜찮다
    • 구간척도 ( interval scale )
      • 측정대상이 갖고 있는 속성의 양을 측정
      • 해당 속성이 전혀 없는 상태인 절대적 원점이 존재하지 않는다
      • Ex_ 섭씨온도(C) (수은의 팽창정도), 물가지수, 주가지수, 성적 (교수님의 기준에 따라 상대적)
    • 비율척도 ( ratio scale )
      • 절대적 원점이 존재
      • 비율이 의미가 있다
      • Ex_ 절대온도, 무게, 키, 나이, 상품가격, 판매량, 시간

  • 통계분석의 5단계
    • 자료의 수집
      • 수집된 자료가 대상집단의 특성을 잘 대표하는가?
    • 수집된 자료의 요약, 정리
      • graph(bar chart, pie chart, ... ), 숫자요약
    • 모수의 추정 : parameter, statistic, estimator
      • parameter – 모집단의 특성을 나타내는 값
      • statistics – 표본으로부터 구해지는 값
    • 가설 검정
    • 모형분석 : 회귀분석, 분산분석, 범주형 자료분석, 시계열 분석

HGU GLS학부 김헌주 교수님의 23-2 통계학 수업을 듣고 작성한 포스트이며, 첨부한 모든 사진은 교수님 수업 PPT의 사진 원본에 필기를 한 수정본입니다.

profile
HGU - 개인 공부 기록용 블로그

0개의 댓글