[DB] 0. 데이터와 데이터베이스 종류

kai·2025년 3월 16일

DataBase(완료)

목록 보기

1/10

데이터베이스를 정리하기에 앞서, 데이터와 정보의 차이를 알아야한다.

데이터(data)는 분석을 거치기 전 단계의 재료로, 아직은 의미가 없는 것이고,
정보(information)는 데이터를 분석하거나 구조화한 의미있는 것이라 볼 수 있다.

데이터의 종류

1. 1차자료(Primary Data)

연구자가 직접 수집한 원시 데이터
시간이 들고 비싸지만, 신뢰도가 높고 연구 목적에 맞는 정확한 데이터를 제공
질적 데이터 (Qualitative Data / Categorical Data) : 의견,묘사와 같이 글자 의존적 응답
양적 데이터 (Quantitative Data / Numerical Data) : 측정할 수 있고 통계적으로 분석할 수 있는 수를 사용한 데이터

2. 2차자료(Secondary data)
기존에 다른사람이 수집하여 저장된 데이터
수집 비용과 시간이 절약되지만, 연구 목적과 완전히 일치하지 않을 수 있음.
내부 데이터 (internal Data) : 한 조직안에서 수집된 데이터
외부 데이터 (External Data) : 조직 밖에서 얻은 데이터

정보처리

날 것의 데이터로부터 의미있는 정보를 추출하는 과정(Raw Data -> Processed Information)
규칙1. 데이터 저장(Data Storage) :데이터베이스가 광대한 기본 데이터를 효율적으로 저장하는 것
규칙2. 데이터 검색(Data Retrieval) : SQL 같은 쿼리 언어를 사용하면 구조화된 데이터 검색이 가능하다.
규칙3. 데이터 집계(Data Aggregation) : SUM(),GROUP BY,AVG()은 대규모 데이터 세트를 요약하는데 도움이 된다.

데이터베이스(DB)

통합하고, 저장하고, 공유하고, 사용가능한 데이터의 모음

특징1. 데이터 중복 최소화 : ->효율적인 저장공간 확보
특징2. 데이터 일관성과 무결성 : 다중 작업사이에서도 데이터 정확성을 유지
특징3. 동시 제어 : 다수의 사용자가 충돌없이 같은 데이터에 접근
특징4. 확장성 : 많은 양의 데이터를 다루고, 작업량 증가에 적응한다.
특징5. 보안성과 접근 제어 : 사용자 인증과 규칙기반 접근 제어(RBAC/role-based access control)을 데이터 보호를 위해 제공

종류1. Structured Data (ex. MySQL,PostgreSQL)

schema는 DB에 저장전에 정의되어 있어야 하고, 데이터 자체와 별도로 정의되기 때문에 일관성과 구성을 보장한다.
미리 정의된 규칙과 고정된 구조를 가짐
정의된 관계에 따라 표에 저장
SQL(Structured Query Language)을 사용하면 쉽게 검색할 수 있다.
schema에 따라, 콜론이나 데이터 타입, 제약이 정의될 수 있다.
SELECT,JOIN,GROUP BY와 같은 작업을 사용하면, 효율적인 질의와 데이터 분석이 가능해진다.

종류2. Semi-Structured Data (ex. HTML,XML,Json files)

: 구조 데이터같은 엄격한 schema내부에 저장되는 것은 아니지만, 조직적인 데이터(tags,metadata)가 데이터 내부에 존재한다.

데이터에는 구조를 설명하는 metadata, marker가 포함된다.
의미있는 구조를 추출하기 위해서 parsing과정이 필요하다.
전통적인 관계 DB보다 파일기반 형식(file-based format)에 주로 저장된다.
데이터를 융통성있게 다룰 수 있는 MongoDB,Firebase,CouchDB와 같은 NoSQL안에 저장된다.

종류3. Unstructured Data (ex. 비디오,음성파일,텍스트 데이터,이메일 등)

: 사전 정의된 schema나 조직적인 format없이 저장되는 데이터.깔끔한 관계형 대ㅔ이터베이스에는 적절하지 않고 특별한 처리과정이 필요하다(store,retrieve,analyze)

정해져 있는 구조가 없음.
전통적인 도구를 이용해서 분석하기 힘듦.(big data,AI-based techniques)
많은 양을 저장하게 됨(이미지,비디오와 같은 고차원 데이터)
데이터 누수나 클라우드 저장소, 분산 데이터베이스와 같은 고급저장기술이 요구됨.

Q. Ustructured Data를 다루는 방법?
A1. NoSQL Databases-MongoDB,Cassandra
A2. Data Lakes -Hadoop,AWS S3
A3. AI & NLP

데이터 특성의 분류(통계학적으로 보았을 때)

Categorical Data(Nominal & Ordinal Data)

: 이산적인 카테고리나 무리로 분류될 수 있는 값. Qualitative data(질적)라고도 하며, 이산적인 계산이나 수를 비교하지 못함

Nominal Data : 순위나 순서가 없는 데이터 (ex,성별, 혈액형등등)
Ordinal Data : 의미있는 순위나 순서가 있지만 그 간격이 일정하지는 않는 데이터(ex. membership rankings(실버,골드,플래티넘))

Numerical Data(Discrete & Continuous Data)

:연산작업을 할 수 있고 측정할 수 있는 값들로 구성된 데이터.Quantitive data(양적)이라고도 함.

Discrete Data: 셀 수 있는 데이터 (소비자 수, 시험을 통과한 사람 수 )
Continous Data: 측정할 수 있는 데이터. 통계적 모델을 이용하여 분석할 수 있다. (ex. height,weight)

kai

임베디드와 인공지능에 관심이 많은 대학생의 정리블로그입니다.

다음 포스트