데이터 기초지식

박준영·2020년 8월 31일
0

통계학정리(책)

목록 보기
1/2

데이터 차원

  • 데이터의 종류는 다양하며 그에 따라 데이터를 읽고 분석하는 방법도 많다. 우리가 어떤 대상을 관찰하거나 실험을 해 얻은 값을 측정값이라 하고 이 측정값의 집합을 데이터라 한다. 측정, 계측을 대상이 되는 속성을 변량, 변수라 한다.
  • 예를 들어 우리 과 학생들을 관찰해 10명의 키를 측정했다고 하면 이때 변량 또는 변수는 단변량데이터(1차원 데이터)라 한다. 만약 10명의 키와 몸무게를 측정했다면 2변량데이터(2차원 데이터)라고 한다.

양적변량, 질적변량

  • 관측값, 측정값의 속성에 따라 데이터의 종류는 다양하다. 측정값이 수치로 표현되는 키, 몸무게, 제품 수명, 주가 등은 양적변량 이라 하고 단어, 문장으로 이루어진 변량은 질적 변량이라 한다.
  • 양적변량은 두 가지로 구분되어 지는데 이산형과 연속형으로 나누어진다. 이산형의 경우 정수형태로 존재하는 데이터이다. 연속형은 연속된 값 즉, 시간, 키, 몸무게 등의 데이터이다.

척도수준

  • 관측 또는 측정되는 데이터는 이용되는 단위나 척도의 성질에 따라 구분되어진다.
  • 명목척도 : 분류나 구분을 나태는 변량의 척도이다.(성별, 국적, 직종)
  • 순서척도 : 분류나 구분에 순서나 대소관계가 존재하는 척도이다.(만족도)
  • 등간척도(간격척도) : 값들 사이에 차이가 의미가 있는 변량이다.(온도, 성적, 날짜)
  • 비율척도 : 간격뿐 아니라 비율에도 의미가 있는 경우(속도, 길이, 면적)

횡단면 데이터, 시계열 데이터

  • Cross-Sectional Data(횡단면데이터) : 복수의 개체를 어느 한 시점에서 관측한 데이터(2020년 20개 행정구역의 주민 소득)
  • Time Series Data(시계열데이터) : 하나의 개체를 복수의 시점에서 관측한 데이터, 데이터의 시간적 변동에 대한 정보를 얻는다.(2010~2020 A씨의 연간 소비지출)
  • 횡단면데이터와 시계열데이터를 합친 데이터를 패널 데이터라 부른다. 복수의 개체를 복수의 시점으로 관측한 데이터를 말한다.

0개의 댓글