[데이터 사이언스] 1. 데이터 종류

aliceshard·2023년 3월 13일

데이터 사이언스

Introduction to Data Mining

Extraction of interesting patterns, which are non-trivial, implicit, previously unknown, and potentially useful.
Explicit한 데이터 쿼리는 데이터 마이닝이 아니다.
데이터 마이닝은 Dr. Rakesh Agrawal 덕분에 1990년대 중반부터 큰 관심을 받았다.
왜 다양한 학문 분야의 교차점이 되는가?
- 엄청나게 많은 양의 데이터
- 고차원의 데이터
- 높은 복잡성의 데이터
- 그로부터 얻어지는 새롭고 심도 있는 활용법들.
최근에는 프라이버시를 지켜주는 것이 중요해졌다.

데이터의 종류

데이터는 크게 Record data, Graph data, Ordered data로 나뉜다.
Record data
- Relational records: 연관성 있는 데이터들의 모음. 반드시 fixed set of attributes를 가진다.
- Data matrix: Relational records와 비슷하게 fixed set of attribute를 가지나, 그 attribute가 모두 numeric attribute인 경우이다.
- Document data: Document에서 해당 term이 몇 번 나왔는가에 대한 빈도수
- Transaction data: 다른 이름은 market basket data. 어떤 제품을 샀는지 TID와 items 컬럼을 갖는 데이터셋을 생각하면 된다. 각 컬럼은 중복된 항목을 가질 수 있다.
Graph data
- World Wide Web: 페이지들 간 방향성을 갖는 HTML 링크의 연결도.
- Social Network Data: 유저들 간 상관관계도 그래프. 양방향성을 가짐.
- Molecular Structures: 그래프 형태를 갖는 화학 분자 구조.
Ordered data
- Sequential Data: 구입한 아이템을 보여주는 것. 대신 시간에 따라 정렬해서 보여줌.
- Time-series Data: 주식과 같이 특정 균등한 시간 인터벌을 따라 데이터의 변화 양상을 보여주는 것
- Genetic Sequence Data: 유전자 염기 서열 같은 순서가 중요한 데이터.
- Trajectory Data: 시간에 따른 미사일 궤적 등

데이터 오브젝트

데이터셋 : 데이터 오브젝트들의 모음
데이터 오브젝트: 데이터 셋의 엔트리
애트리뷰트: 데이터 오브젝트의 엔트리 하나하나. 크게 Categorical(정성적) 타입과 Numeric(정량적) 타입으로 나뉜다.

Categorical Attribute Types

Nominal: 그냥 String을 저장. {갈색, 검은색, 파란색}
Binary: 2개의 상태만 갖는 데이터
- Symmetric binary: 두 상태 모두 중요한 데이터. 성별.
- Asymmetric binary: 두 상태가 균등하게 중요하지 않은 것. 코로나 확진.
- Convention: 1인 데이터에 가장 중요한 가중치를 부여함. HIV 확진.
Ordinal: 의미가 있는 기준에 따라 순서를 부여해 정리한 것. 하지만 각 데이터 간 ordering의 기준이 되는 magnitude는 알려져 있지 않다.

Numeric Attribute Types

Interval: Scale of eqaul-sized units에 따라 나타내는 것. 중요한 것은 True-zero point가 없다는 점이다. 다시 말해, 인터벌에 해당하는 섭씨나 화씨 온도는 '10도가 5도보다 2배 따뜻하다' 고 말해도 말이 통하는 얘기가 아니라는 뜻이다.
Ratio: True zero-point가 있는 타입. 켈빈 온도는 Ratio 애트리뷰트이다.

Numeric 애트리뷰트는 데이터 분포 간 사칙연산 및 통계 계산(평균, 중간값, std 등...) 이 가능하다.

Basic Statistical Description of Data

Measuring the Central Tendency

Mean
$\bar{x} = {1 \over n} \sum_{i=1}^n x_i$ $\mu = {\sum x \over N}$
Median
데이터셋 개수가 홀수인 경우: 그냥 중간만 고름
데이터셋 개수가 짝수인 경우: 중간 두개 값을 골라서 평균냄
Mode
데이터셋에서 가장 빈번하게 발생하는 값
- Unimodal: 하나의 값만 빈번하게 발생하고 있을 때.
- Bimodal: 두 값이 빈번하게 발생하고 있을 때.
- Multimodal: 여러 개의 값이 빈번하게 발생하고 있을 때.

Types

Distributive: 작은 서브셋으로 나눠서 연산한 뒤 합쳐서 연산할 수 있는 것들. sum, count, min, max 등.

Algebraic: 여러 개의 algebraic function에 대해서 적용할 수 있는 것. mean.

Holistic: 전체 데이터를 한번에 고려하며 해야하는 것. median.

Approximation of the Median

median = L_1 + ({N/2 - \sum{freq}_l \over freq_{median}}) \times width

Symmetric vs Skewed data

Positively skewed: mode - median - mean
Negatively skewed: mean - median - mode

Measuring the Dispersion of Data

Inter-quartile range (IQR): $IQR = Q_3 - Q_1$
Five number summary: min, $Q_1$ , median, $Q_3$ , max
Outlier: IQR $\times 1.5$ 보다 높거나 낮은 것.
Variance $s^2 = {1 \over {N-1}}\sum^n_{i=1}(x_i-\bar{x})^2$ $\sigma^2 = {1 \over N} \sum^n_{i=1}(x_i - \mu)^2$
Standard deviation은 variance의 sqrt이다.

How to calculate quartile

Method 1

Median을 사용한다. Median은 반갈죽 데이터 서브셋에 포함시키지 않는다.
lower quartile value는 아랫쪽 데이터의 median이고, upper quartile value는 윗쪽 데이터의 median이다.

Method 2

Median을 사용한다. Median을 반갈죽 데이터 서브셋에 포함시킨다.
위와 같다.

aliceshard

안녕하세요.

이전 포스트

[부호이론] 2. 군론 + 코드 경계

다음 포스트

[데이터 사이언스] 1. 데이터 종류

Introduction to Data Mining

데이터의 종류

데이터 오브젝트

Categorical Attribute Types

Numeric Attribute Types

Basic Statistical Description of Data

Measuring the Central Tendency

Types

Approximation of the Median

Symmetric vs Skewed data

Measuring the Dispersion of Data

How to calculate quartile

[부호이론] 2. 군론 + 코드 경계

[데이터 사이언스] 2. Preprocessing

0개의 댓글