[생활 속의 통계] 자료 모으기

k·2024년 4월 5일
0

생활속의통계

목록 보기
1/1

측정과 척도

측정(measurement)

연구의 대상이 되는 속성이나 개념에 대해 일정한 규칙에 따라 수치를 부여하는 작업

연구 주제와 관련된 개념을 쉽게 다룰 수 있도록 정량화하는 것

측정에서 사용되는 도구를 측정 도구라고 한다.

척도(scale)

측정 결과를 값으로 나타내며, 측정 척도(measurement scale)에 따라 4 가지 형태로 구분된다.

척도의 종류에 따라 해당 값이 가지는 의미와 적용하는 통계 기법이 다르다.

질적 변수

-- 명목척도(nominal scale)

단순히 분류 만을 목적으로 사용

대소관계, 연산 성립 X

-- 순서척도(ordinal scale)

측정대상 사이의 대소 관계를 표현하는 목적으로 사용

Only 대소관계만 성립

양적 변수

-- 구간척도(interval scale)

기준이 되는 값을 여러개 더하여 나타내기 위해 사용

더하기와 빼기, 대소관계 성립

'0'이 절대적인 0을 의미하지 않는다. 즉 상대적인 기준으로 부터 증가하는 것이기에 비율의 의미는 적용되지 않는다.

-- 비율척도(ratio scale)

기준이 되는 값의 여러 배수로 측정된 값

사칙연산 모두 가능함.

절대적인 0을 의미, 비율이 성립한다.

측정과 관련된 기본 용어

  • 모집단
  • 표본추출단위
  • 표본
  • 전수조사
  • 표본조사
  • 모수
  • 통계량
  • 확률변수

편의와 정도

  • 편의(bias)
    참값에서 벗어나는 양

    편의가 없을 때, 불변성을 만족한다고 말함.

    • 편의가 없음 - 중간에 있음
    • 편의가 있음 - 중간에서 떨어짐
  • 정도(precision)
    통계량의 변동(variation)을 나타냄

    • 정도가 높음 - 모여있음.
    • 정도가 낮음 - 흩어져 있음.

관측연구와 실험연구

  • 관측연구 (observational study) - 귀납적
    표본에 속하는 개체들을 조사하여 표본을 있는 그대로 관측

    가만히 놔두면서, 관찰하는 방식

  • 실험연구 (experimental study) - 연역적
    표본에 대해서 여러 통계적인 실험을 설게해서 결과 측정

    정확한 효과를 위해, 진실을 말하지않음. (플라시보 효과)

올바른 측정 도구에 대한 기준

  • 타당성(validity)

  • 신뢰성(reliability)

표본조사

모집단을 대상으로 하는 조사는 너무 오래 걸리고, 사실상 실현가능성이 낮다. 그렇기에 표본을 모집단과 최대한 비슷하게 "대표할 수 있도록" 구성하여 조사를 진행하여 모집단의 모수를 추론한다.

표본조사에서는 어떻게 모집단을 잘 대표할 수 있는 표본을 추출할 수 있는가가 중요하다.

왜 표본조사가 필요해!?

  1. 조사 환경에 따라 시간 및 비용에 한계 존재
  2. 전수조사보다 오히려 정확할 수도 있음 (오차에 대한 부분이 전수조사에서는 많이 존재)
  3. 현실적으로 전수조사가 훨씬 어려움.

오차

측정을 통해 얻은 통계량실제 모수의 차이

통계량을 얻는 것은 모수를 추론하기 위함이기 때문

대표적으로 아래와 같다.

표본오차(sampling error)

  • 전수조사를 하고않고 표본조사를 함으로써 발생하는 오차
  • 모집단의 원소에서 임의로 선택하기에 실제 모집단과 괴리감 발생
  • 표본집단이 모집단을 잘 대표하지 못해서 발생

비표본오차(non-sampling error)

표본오차 이외에 발생하는 오차

  • 무응답 오차(non-response error)
    대답을 하지않아서 특성값을 측정하지 못한 경우 발생
  • 응답 오차(response error)
    조사원에 대한 불충분한 감독이나 경험미숙 등으로 응답자가 거짓으로 응답하는 경우 발생
  • 처리 오차(processing error)
    수집된 데이터를 전처리하는 과정 중 발생하는 오차( 수작업 등에서)

오차를 줄이는 법

  • 표본오차에 해당

    • 적절한 표본추출법 선택
    • 표본의 크기 조절 - 크기가 크면 조사 결과의 변동이 줄어듬

      너무 크면 모집단과 다를 바가 없음. 적절한 선을 지켜야함.

  • 비표본오차에 해당
    * 조사원에 대한 관리 감독을 강화 ( 거짓된 말 하지말게)

표본추출방법

확률표본추출( probability sampling )

  • 단순임의 추출 - 제일 일반적인 방법
    랜덤으로 하기 때문에, 표본으로 선택될 확률이 모두 동일함

    난수(Random Number) : 임의로 추출한 수

    대규모 표본조사에 사용하기 어려움. 그래서 소규모 조사나 예비 조사에서 많이 사용

  • 층화 추출
    모집단에 동일한 집단이 여러개 포함된 경우 대표성을 확보하기 위해 고안됨

    각 층에서 단순임의추출로 표본을 뽑음

    strata(층)로 나눔 (층 내는 동일, 층 간은 이질)
    모든 층에서 조사가 진행됨

  • 계통 추출
    표본 추출 단위를 차례대로 나열한 후에 표본을 일정한 간격으로 추출
    이 때, 간격은 임의로 선택함

    단순임의추출을 대신해서 많이 활용됨

  • 집락 추출
    집락이라는 말에서부터 알 수 있듯이, 뭉쳐져 있는 구조이다. 작은 모집단을 집락 1개가 형성한다. 그래서 동질적인 구조가 아닌 이질적인 구조로 집락을 형성한 후에 조사단위를 모두 조사

    필요에 따라서 2단계 집락 추출을 할 수도 있다.
    이는 임의로 집락을 몇개 추출한 후에, 해당 집락에서 다시 일부를 추출하는 방법이다.

    2단계 집락 추출 방법을 적용하는 것이 효율적
    일부 집락에서만 조사 진행

  • 층화집락 추출
    층화 추출법 이후에 동질적인 구조로 층을 만들고, 해당 층 내에서 다른 특성으로 집락을 구성한다.

    실제 조사에서 흔히 사용됨.

비확률표본추출( non-probability sampling ) - 정도(precision)을 설명할 수 없음

  • 편의 추출
    손 쉽게 접촉할 수 있는 대상들을 표본 추출

    기준없이 조사원이 주관적인 생각으로 편하게 선택하여 조사

    그렇기 때문에, 일반화하기 어려움

    눈덩이 추출법

    편의 추출법에 일종이고, 다단계의 느낌..
    초기 접촉대상자들이 유사한 대상자들을 소개하여 조사를 진행!

  • 유의 추출
    모집단을 잘 대표할 수 있다고 전문가가 주관적으로 판단되는 대상을 표본으로 추출

    전문가에 따라 표본이 달라지기 때문에 객관적으로 대표성을 확보할 수 없음.

    표본 크기가 매우 작을 때 효과적
    이 때는 확률추출법을 사용하면 오히려 대표성 확보를 못할 수도 있음.
    유의 추출을 하면 편의는 발생할지만, 모집단을 대표하는 표본 확보 가능함.

  • 할당 추출
    층화 추출에서 랜덤화 과정이 빠진 형태이다.

    층을 나눠서 해당 층 내에서 전문가의 주관으로 대상을 선정하는 방식이다.

    선택 편의(selection bias)가 발생
    최소한의 그룺 구성을 위해 반영한 특성에 있어서 조사원에 의한 선택 편의를 제거한다.

    여론 조사에서 주로 쓰이며, 무응답에는 굳이 재조사를 필요로 하지않는다.

profile
You must do the things you think you cannot do

0개의 댓글