통계 복습 (1)

yuns_u·2022년 8월 23일
0

확률복습

목록 보기
1/1

💙 요약 💙

  • 통계분석
    • 기술통계와 추측통계
    • 확률과 확률분포
    • 추정과 가설검정
    • 차이 검정: t-검정, 분산분석
    • 연관(상관) 검정: 카이제곱검정, 상관분석
    • 인과 분석: 회귀분석

💙모집단과 표본 그리고 통계학

  • 통계와 통계학
  • 모집단과 표본
  • 표본조사
  • 기술통계와 추측통계

통계와 통계학

통계 : 사람, 사물, 사건, 사회적 현상 혹은 자연 현상 등을 조사하여 수집된 각종 데이터의 요약. 집단현상에 대한 구체적인 양적 기술을 반영하는 숫자.

통계학: 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야.


통계학의 목적

  • 학문적 관점
    새로운 질문들, 연구 과제에 대하여 과학적으로 답을 찾아가는 방법

  • 비즈니스 관점
    성공가능성을 높이거나 실패 가능성을 낮추며 의사결정 지원.
    넘치는 데이터로부터 인사이트를 얻는 방법을 제공
    빅데이터, 인공지능 시대의 기본 학문


모집단과 표본 그리고 통계학


이미지 출처
이미지출처
이미지출처

기술통계: 자료의 특징 파악.
(수집된 자료를 몇 개의 수치, 그림/표를 통해 정리요약하여 전반적인 특징을 파악)
추측통계: 관심 대상에 대한 일반화된 결론 제공
(모집단의 특성을 추론하여 이를 토대로 의사결정에 필요한 결론 제공.)

모집단과 표본

  • 모집단(population): 통계분석 방법을 적용할 관심 대상의 전체 집합.
    모르는 데이터
  • 표본(sample) : 모집단에서 선택된 모집단 구성단위의 일부.
    갖고 있는 데이터

전수조사와 표본조사

  • 전수조사(survey): 모집단 전체를 조사
  • 표본조사(sampling): 모집단의 일부를 조사

모수와 통계량

  • 모수(parameter) : 모집단의 특성을 나타내는 수치
  • (표본)통계량(sample statistic): 표본의 특성을 나타내는 수치

통계기호 정리
이미지출처


표본조사(sampling)

  • 모집단에 대한 설명력이 표본

    • 표본의 요건: 모집단의 대표
      표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성이 커진다.

    • 무작위 추출(random sampling): 편향성을 배제

  • 오차(error): 연구(분석)결과를 왜곡시킴

    • 표본오차(sampling error)

      • 모집단을 모두 조사하지 않고 모집단 일부인 표본만 조사하기 때문에 발생하는 오차
      • 표본의 크기가 커질수록 작아지며 전수조사 시 0이 된다.
    • 비표본오차(non-sampling error)

      • 무응답오차
      • 응답오차
        • 조사자 오차 : 표본을 잘못 선정, 데이터 잘못 분석
        • 면접자 오차 : 능력없는 면접자, 면접자의 실수나 태만
        • 응답자 오차 : 응답자의 실수나 무성의한 답변

이미지출처

모집단의 특성과 이해 수준에 따라 표본 추출 방법이 정해지는 경우가 많다.
표본 추출 방법은 추출된 표본의 추출 확률 여부에 따라 비확률 추출방법과 확률 추출방법으로 구분된다.
이미지출처

확률표본추출방법

확률표본추출방법은 표집 대상이 확률을 가지고 표본을 추출하는 방법이다.
이미지출처

  • 단순임의추출(simple random sampling,srs법)

    • 전체에 대해 무작위 추출
    • 난수표(random number table)를 이용하여 표본의 크기만큼 개체를 선택
  • 층화추출(Stratified Random Sampling)

    • 모집단을 특성에 의해 몇 개의 층(strata)으로 나눔.
    • 층 간에는 차이가 존재하므로 각 층에서 골고루 개체를 선택(SRS법(단순임의추출) 적용)
    • 데이터 내에서 지정한 그룹별로 지정한 비율만큼의 데이터를 랜덤하게 선택
    • 모집단의 각 층의 비율만큼 추출
      - 비례층화추출 / Multi-stage 층화추출
  • 계통추출(Systematic Sampling)

    • 첫 번째 요소는 무작위로 선정, 목록의 매 k번째 요소를 표본으로 선정하는 표집방법
    • 모집단의 크기를 원하는 표본의 크기로 나누어 k를 계산
      • k는 표집 간격 == sampling interval
    • 만약 요소들의 목록이 표본이 추출되기 전에 무작위로 되어 있다면, 그 목록에서 계통추출법을 통해 추출된 표본은 실제로는 단순임의표본과 같다고 할 수 있다.
    • 만약 표본이 추출되기 전 요소들의 목록이 무작위로 되어 있지 않고 주기성(periodicity)을 띄고 있다면, 계통추출법을 통해 추출된 표본은 매우 어긋난 표본이 될 수 있으며 모집단을 전혀 반영하지 못하게 됨.
  • 집락추출(Cluster Sampling)

    • 군집간 동질적, 군집내 이질적인 경우
    • 소집단 자체를 표본대상으로 하기 때문에 각 소집단이 가능한 한 모집단을 대표할 수 있는 소규모 집단이 되어야 가장 이상적

기술통계와 추측통계

기술통계(descriptive statistics)

  • 수집한 데이터를 요약, 묘사, 설명하는 기법
    예) 인구조사, 토지조사 등을 통한 현상 파악
  • 시각화 도구
    : 도수분포표, 히스토그램, 상자그림표, 산점도, 버블차트, 히트맵, 평행좌표플롯 등
  • 기술통계량
    : 평균, 중위수(중앙값), 사분위수, 분산, 표준편차, 변동계수, 왜도, 첨도 등

데이터 타입과 역할에 따른 기술통계

수치형(Numerical Data) : 분포분석

  • 데이터의 특성을 분포로 설명
  • 주요 항목은 범위, 평균, 분산, 표준편차 등
  • 대부분의 분석 방법이 특정 분포를 가정
  • 대표(중심경향),산포,왜도, 첨도

범주형(Categorical Data) : 빈도분석

  • 범주별 출현 빈도에 기반한 분석
  • 주요 항목은 빈도, 비율, 누적비율 등
  • 특정 분포 가정 없이 빈도에 기반한 확률을 사용

추측통계(inferential statistics)

  • 수집한 데이터를 기반으로 모집단의 특성을 추론 예측하는 기법
  • 전체를 파악할 수 없을 정도의 큰 대상이나 아직 발생하지 않은 미래의 일에 대해 추측하는 기술
    예) 대선 당선 예측, 주가예상, 금융 및 보험 상품의 가격 결정
  • 확률이론 기반
  • 가설검정 기반의 통계적 분석 기법들
    • 상관분석, 연관분석, 독립성검정 등
    • 차이검정, 회귀분석, 구조방정식 등

데이터 타입과 역할에 따른 추측통계: 독립변수와 종속변수의 데이터 타입에 따라 상이


참고) 독립변수와 종속변수

profile
💛 공부 블로그 💛

0개의 댓글