[데이터 사이언스] 1. 데이터 종류

aliceshard·2023년 3월 13일
0

Introduction to Data Mining

  • Extraction of interesting patterns, which are non-trivial, implicit, previously unknown, and potentially useful.
  • Explicit한 데이터 쿼리는 데이터 마이닝이 아니다.
  • 데이터 마이닝은 Dr. Rakesh Agrawal 덕분에 1990년대 중반부터 큰 관심을 받았다.
  • 왜 다양한 학문 분야의 교차점이 되는가?
    • 엄청나게 많은 양의 데이터
    • 고차원의 데이터
    • 높은 복잡성의 데이터
    • 그로부터 얻어지는 새롭고 심도 있는 활용법들.
  • 최근에는 프라이버시를 지켜주는 것이 중요해졌다.

데이터의 종류

  • 데이터는 크게 Record data, Graph data, Ordered data로 나뉜다.

  • Record data

    • Relational records: 연관성 있는 데이터들의 모음. 반드시 fixed set of attributes를 가진다.
    • Data matrix: Relational records와 비슷하게 fixed set of attribute를 가지나, 그 attribute가 모두 numeric attribute인 경우이다.
    • Document data: Document에서 해당 term이 몇 번 나왔는가에 대한 빈도수
    • Transaction data: 다른 이름은 market basket data. 어떤 제품을 샀는지 TID와 items 컬럼을 갖는 데이터셋을 생각하면 된다. 각 컬럼은 중복된 항목을 가질 수 있다.
  • Graph data

    • World Wide Web: 페이지들 간 방향성을 갖는 HTML 링크의 연결도.
    • Social Network Data: 유저들 간 상관관계도 그래프. 양방향성을 가짐.
    • Molecular Structures: 그래프 형태를 갖는 화학 분자 구조.
  • Ordered data

    • Sequential Data: 구입한 아이템을 보여주는 것. 대신 시간에 따라 정렬해서 보여줌.
    • Time-series Data: 주식과 같이 특정 균등한 시간 인터벌을 따라 데이터의 변화 양상을 보여주는 것
    • Genetic Sequence Data: 유전자 염기 서열 같은 순서가 중요한 데이터.
    • Trajectory Data: 시간에 따른 미사일 궤적 등

데이터 오브젝트

  • 데이터셋 : 데이터 오브젝트들의 모음
  • 데이터 오브젝트: 데이터 셋의 엔트리
  • 애트리뷰트: 데이터 오브젝트의 엔트리 하나하나. 크게 Categorical(정성적) 타입과 Numeric(정량적) 타입으로 나뉜다.

Categorical Attribute Types

  • Nominal: 그냥 String을 저장. {갈색, 검은색, 파란색}
  • Binary: 2개의 상태만 갖는 데이터
    • Symmetric binary: 두 상태 모두 중요한 데이터. 성별.
    • Asymmetric binary: 두 상태가 균등하게 중요하지 않은 것. 코로나 확진.
    • Convention: 1인 데이터에 가장 중요한 가중치를 부여함. HIV 확진.
  • Ordinal: 의미가 있는 기준에 따라 순서를 부여해 정리한 것. 하지만 각 데이터 간 ordering의 기준이 되는 magnitude는 알려져 있지 않다.

Numeric Attribute Types

  • Interval: Scale of eqaul-sized units에 따라 나타내는 것. 중요한 것은 True-zero point가 없다는 점이다. 다시 말해, 인터벌에 해당하는 섭씨나 화씨 온도는 '10도가 5도보다 2배 따뜻하다' 고 말해도 말이 통하는 얘기가 아니라는 뜻이다.
  • Ratio: True zero-point가 있는 타입. 켈빈 온도는 Ratio 애트리뷰트이다.

Numeric 애트리뷰트는 데이터 분포 간 사칙연산 및 통계 계산(평균, 중간값, std 등...) 이 가능하다.

Basic Statistical Description of Data

Measuring the Central Tendency

  • Mean

    xˉ=1ni=1nxi\bar{x} = {1 \over n} \sum_{i=1}^n x_i
    μ=xN\mu = {\sum x \over N}
  • Median
    데이터셋 개수가 홀수인 경우: 그냥 중간만 고름
    데이터셋 개수가 짝수인 경우: 중간 두개 값을 골라서 평균냄

  • Mode
    데이터셋에서 가장 빈번하게 발생하는 값

    • Unimodal: 하나의 값만 빈번하게 발생하고 있을 때.
    • Bimodal: 두 값이 빈번하게 발생하고 있을 때.
    • Multimodal: 여러 개의 값이 빈번하게 발생하고 있을 때.

Types

  • Distributive: 작은 서브셋으로 나눠서 연산한 뒤 합쳐서 연산할 수 있는 것들. sum, count, min, max 등.
  • Algebraic: 여러 개의 algebraic function에 대해서 적용할 수 있는 것. mean.
  • Holistic: 전체 데이터를 한번에 고려하며 해야하는 것. median.

Approximation of the Median

median=L1+(N/2freqlfreqmedian)×widthmedian = L_1 + ({N/2 - \sum{freq}_l \over freq_{median}}) \times width

Symmetric vs Skewed data

  • Positively skewed: mode - median - mean
  • Negatively skewed: mean - median - mode

Measuring the Dispersion of Data

  • Inter-quartile range (IQR): IQR=Q3Q1IQR = Q_3 - Q_1
  • Five number summary: min, Q1Q_1, median, Q3Q_3, max
  • Outlier: IQR ×1.5\times 1.5 보다 높거나 낮은 것.
  • Variance
    s2=1N1i=1n(xixˉ)2s^2 = {1 \over {N-1}}\sum^n_{i=1}(x_i-\bar{x})^2
    σ2=1Ni=1n(xiμ)2\sigma^2 = {1 \over N} \sum^n_{i=1}(x_i - \mu)^2
  • Standard deviation은 variance의 sqrt이다.

How to calculate quartile

  • Method 1
  1. Median을 사용한다. Median은 반갈죽 데이터 서브셋에 포함시키지 않는다.
  2. lower quartile value는 아랫쪽 데이터의 median이고, upper quartile value는 윗쪽 데이터의 median이다.
  • Method 2
  1. Median을 사용한다. Median을 반갈죽 데이터 서브셋에 포함시킨다.
  2. 위와 같다.
profile
안녕하세요.

0개의 댓글