- 엄청나게 많은 양의 데이터
- 고차원의 데이터
- 높은 복잡성의 데이터
- 그로부터 얻어지는 새롭고 심도 있는 활용법들.
데이터는 크게 Record data, Graph data, Ordered data로 나뉜다.
Record data
- Relational records: 연관성 있는 데이터들의 모음. 반드시 fixed set of attributes를 가진다.
- Data matrix: Relational records와 비슷하게 fixed set of attribute를 가지나, 그 attribute가 모두 numeric attribute인 경우이다.
- Document data: Document에서 해당 term이 몇 번 나왔는가에 대한 빈도수
- Transaction data: 다른 이름은 market basket data. 어떤 제품을 샀는지 TID와 items 컬럼을 갖는 데이터셋을 생각하면 된다. 각 컬럼은 중복된 항목을 가질 수 있다.
Graph data
- World Wide Web: 페이지들 간 방향성을 갖는 HTML 링크의 연결도.
- Social Network Data: 유저들 간 상관관계도 그래프. 양방향성을 가짐.
- Molecular Structures: 그래프 형태를 갖는 화학 분자 구조.
Ordered data
- Sequential Data: 구입한 아이템을 보여주는 것. 대신 시간에 따라 정렬해서 보여줌.
- Time-series Data: 주식과 같이 특정 균등한 시간 인터벌을 따라 데이터의 변화 양상을 보여주는 것
- Genetic Sequence Data: 유전자 염기 서열 같은 순서가 중요한 데이터.
- Trajectory Data: 시간에 따른 미사일 궤적 등
- Symmetric binary: 두 상태 모두 중요한 데이터. 성별.
- Asymmetric binary: 두 상태가 균등하게 중요하지 않은 것. 코로나 확진.
- Convention: 1인 데이터에 가장 중요한 가중치를 부여함. HIV 확진.
Numeric 애트리뷰트는 데이터 분포 간 사칙연산 및 통계 계산(평균, 중간값, std 등...) 이 가능하다.
Mean
Median
데이터셋 개수가 홀수인 경우: 그냥 중간만 고름
데이터셋 개수가 짝수인 경우: 중간 두개 값을 골라서 평균냄
Mode
데이터셋에서 가장 빈번하게 발생하는 값
- Unimodal: 하나의 값만 빈번하게 발생하고 있을 때.
- Bimodal: 두 값이 빈번하게 발생하고 있을 때.
- Multimodal: 여러 개의 값이 빈번하게 발생하고 있을 때.
- Distributive: 작은 서브셋으로 나눠서 연산한 뒤 합쳐서 연산할 수 있는 것들. sum, count, min, max 등.
- Algebraic: 여러 개의 algebraic function에 대해서 적용할 수 있는 것. mean.
- Holistic: 전체 데이터를 한번에 고려하며 해야하는 것. median.