[proDS] 자료의 이해

Gammi·2022년 10월 14일
0

proDS

목록 보기
1/13

✔ 모집단과 표본


  • 모집단 : 통계분석 방법을 적용할 관심 대상의 전체 집합

  • 모수 : 모집단을 분석하여 얻어지는 결과 수치

    -> 평균, 분산, 표준편차 등

  • 표본 : 직접적인 조사 대상이 된 모집단의 일부

  • 통계량 : 표본을 분석하여 얻어지는 결과 수치

    -> 표본 데이터로 모집단 추론


✔ 모수와 통계량

  • 분산 : 편차 제곱의 합을 변량 개수로 나눈 값

  • 표준 편차 : 분산에 루트 씌운 거



✔ 자료의 수집


  • 개체 : 연구자 또는 관찰자가 관심을 갖는 대상

  • 요인 : 개체의 특성 중 연구자가 관심을 갖는 특성

  • 변수 : 요인을 구성하고 있는 요소





✔ 변수의 역할


  • 변수는 독립변수와 종속변수로 이루어짐

  • 독립변수가 원인, 종속변수가 결과

  • 분석 내용에 따라 다른 역할을 가짐

y = 0.1 + 0.2x

  • y : 종속변수, x : 독립변수





✔ 변수의 형태


  • 기본 단위 : 자료를 구성하는 관찰 대상

  • 변수(변량) : 시간에 따라 변하는 특성

  • 수치형 변수

    • 이산변수 : 셀 수 있는 정수값(유한한 범위)

    • 연속변수 : 측정치 사이에 갭이 없는 연속 변수





✔ 변수의 타입


  • 범주형 변수와 수치형 변수로 나누어짐

1. 범주형 변수

  • 정성적, 질적 자료

  • 빈도 분석

  • 분할표, 파이그래프, 모자이크 plot

  • 명목형 변수와 순서형 변수로 나누어짐


1-1. 명목형 변수

  • 크기X

  • 단순 범주를 표시

1-2. 순서형 변수

  • 단순 분류만 한 것이 아니라 순서도 있음

    -> 순서 상대적으로 비교 가능

  • 수치형 자료를 그룹화하여 순서형 자료로 바꿈


2. 수치형 변수

  • 정량적, 양적 자료

  • 범위형, 비율형

  • 평균 / 분산 분석, 분포 분석

  • 측정오차 존재

  • 히스토그램, 상자그림, 산점도

  • 이산형 변수와 연속형 변수로 나누어짐


2-1. 이산형 변수

  • 셀 수 있는 형태의 자료

  • 유한한 범위


2-2. 연속형 변수

  • 등간형 변수

    • 비교할 수 있도록 단위가 정해진 경우 +, - 만 가능

      (온도: 20도가 10도보다 2배 더운 것X)

  • 비율형 변수

    • 0이 없음을 의미

    • 사칙연산 가능





✔ 변수 타입과 활용


상호배타성서열 비교덧셈뺄셈 연산자연적 0의 존재
명목척도OXXX
서열척도OOXX
등간척도OOOX
비율척도OOOO

1. 수치형 변수

  • 분포 분석

  • 데이터 특성을 분포로 설명

  • 범위, 평균, 분산, 표준편차 등

  • 대부분 분석 방법이 특정 분포를 가정


2. 범주형 변수

  • 빈도 분석

  • 범주별 출현빈도에 기반한 분석

  • 빈도, 비율, 누적비율 등

  • 특정 분포 가정 없이 빈도에 기반한 확률 사용





✔ 데이터 타입별 통계 분석


  • 엄청엄청엄청 중요

  • 변수의 타입과 역할에 따라 다른 분석 기법 적용

  • 어떤 기법을 사용하는지 잘 외워둘 것!

profile
개발자가 되었어요⭐️

0개의 댓글