통계란?

아따맘마·2020년 11월 13일
0

빅데이터

목록 보기
6/9

정의

특정 집단을 대상으로 조사나 실험을 통해 나온 결과를 요약하여 나타낸 표현.

통계 분석

집단 또는 불확실한 현상을 대상으로 자료를 수집하여 대상 집단에 대한 정보를 구하고, 적절한 통계분석 기법을 이용하여 의사결정을 하는 것.

통계분석 종류

  • 기술통계 : 주어진 자료에 대해 주관적인 의견이 개입할 수 있는 과정을 배제하여 그 자료에 대한 특성을 수량화하여 객관적인 데이터로 나타낸다.
  • 추론 통계 : 수집된 자료를 이용하여 모집단에 대한 의사결정을 하는 것. 샘플링을 통해 표본을 추출하여 그 표본을 통해 모집단을 추정.

    모수 추정 : 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단 추론
    가설 검정 : 대상 집단에 대해 가설을 설정 후에 그 가설이 옳은지 그른지에 대한 채택 여부 결정
    예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용

전수조사 vs 표본조사

통계 자료를 얻음에 있어 크기가 작다면 전수조사가 가능하지만 인구수와 관련된 데이터처럼 빅데이터인 경우 전수조사는 거의 불가능하다고 보면 된다. 하지만 정확성으로만 따졌을 때는 표본조사보단 전수조사가 더 우위에 있다.
표본값으로 모집단의 모수를 측정할 때 표본오차의 비표본오차가 발생할 수 있다.
그리고 응담오차, 유도질문 등은 표본조사에서의 유의점이다.

표본조사

모집단에서 샘플링을 통해 표본을 추출 후 진행하는 조사. 모집단의 정의, 표본의 크기, 조사 방법, 조사 기간, 표본추출 방법을 정확히 명시해야 한다.

  • 모집단 : 조사하고자 하는 대상 집단의 전체
  • 원소 : 모집단을 구성하는 개체
  • 표본 : 조사하기 위해 추출한 모집단의 일부 원소
  • 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
    ex) 평균, 표준편차, 분산 ...

표본 편의 : 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차. 확률화 방법으로 최소화하거나 없앨 수 있다.

표본 추출 방법

표본으 모집단을 대표할 수 있으므로 표본 추출 방법에 따라 분석 결과의 해석은 큰 차이가 난다.
1. 단순랜덤 추출법(Simple random sampling
각 샘플에 번호를 부여하고 임의의 n개를 추출하는 방법. 각 샘플은 선택될 확률이 동일. 비복원 / 복원 추출이 있다.
이론적으로 가장 기본적인 추출법이다. 모집단의 특성, 구성 등을 파악하지 않고 모든 객체가 동일한 확률로 선택된다. 모집단에 대한 지식이 전무할 때 쓰기 좋고, 추출이 독립적이기 때문에 표본의 대표성이 높다. 모집단이 큰 경우에 용이
2. 계통 추출법(Systematic sampling)
샘플에 번호를 부여하여 나열하고 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택 후 K개씩 띄어서 n개의 표본을 선택.
이는 데이터가 주기성, 특정한 경향성이 없다는 가정이 필요하다. 매우 간편한 방법이고 모집단이 큰 경우에 용이하다. 난수표에 기초하지만 주기성을 기반으로 추출.

3.집락 추출법(Cluster random sampling)
군집을 구분하고 군집별로 단순랜덤 추출법을 수행 후 모든 자료를 활용하거나 샘플링 하는 방법.
다른 추출법에 비해 표본오차가 클 가능성이 있다. 기법이 간단하여 모집단이 큰 경우 용이. 표본 추출 시간, 비용이 적다.
4. 층화추출법(Stratified random sampling)
이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리 층으로 나누어 각 층에서 랜덤 추출하는 방법
모집단에 대한 사전지식이 필요하고 시간과 노력이 많이 소요. 중요 집단이 표본에서 제외되는 것을 방지할 수 있다.

척도

질적 척도

범주형 자료로, 숫자들의 크기 차이가 계산이 되지 않는 척도

  • 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 ...)
  • 순서 척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학년, 신용 등급 ...)

양적 척도

수치형 자료로, 숫자들의 크기 차이를 계산할 수 있는 척도

  • 구간(등간) 척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간겨이 의미가 있다. (온도, 지수 ...)
  • 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리 ...)

순서 척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 사용 가능.
구간 척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능.

profile
늦게 출발했지만 꾸준히 달려서 도착지점에 무사히 도달하자

0개의 댓글