데이터베이스를 정리하기에 앞서, 데이터와 정보의 차이를 알아야한다.
데이터(data)는 분석을 거치기 전 단계의 재료로, 아직은 의미가 없는 것이고,
정보(information)는 데이터를 분석하거나 구조화한 의미있는 것이라 볼 수 있다.

연구자가 직접 수집한 원시 데이터
시간이 들고 비싸지만, 신뢰도가 높고 연구 목적에 맞는 정확한 데이터를 제공
질적 데이터 (Qualitative Data / Categorical Data) : 의견,묘사와 같이 글자 의존적 응답
양적 데이터 (Quantitative Data / Numerical Data) : 측정할 수 있고 통계적으로 분석할 수 있는 수를 사용한 데이터
기존에 다른사람이 수집하여 저장된 데이터
수집 비용과 시간이 절약되지만, 연구 목적과 완전히 일치하지 않을 수 있음.
내부 데이터 (internal Data) : 한 조직안에서 수집된 데이터
외부 데이터 (External Data) : 조직 밖에서 얻은 데이터
날 것의 데이터로부터 의미있는 정보를 추출하는 과정(Raw Data -> Processed Information)
규칙1. 데이터 저장(Data Storage) :데이터베이스가 광대한 기본 데이터를 효율적으로 저장하는 것
규칙2. 데이터 검색(Data Retrieval) : SQL 같은 쿼리 언어를 사용하면 구조화된 데이터 검색이 가능하다.
규칙3. 데이터 집계(Data Aggregation) : SUM(),GROUP BY,AVG()은 대규모 데이터 세트를 요약하는데 도움이 된다.
통합하고, 저장하고, 공유하고, 사용가능한 데이터의 모음

특징1. 데이터 중복 최소화 : ->효율적인 저장공간 확보
특징2. 데이터 일관성과 무결성 : 다중 작업사이에서도 데이터 정확성을 유지
특징3. 동시 제어 : 다수의 사용자가 충돌없이 같은 데이터에 접근
특징4. 확장성 : 많은 양의 데이터를 다루고, 작업량 증가에 적응한다.
특징5. 보안성과 접근 제어 : 사용자 인증과 규칙기반 접근 제어(RBAC/role-based access control)을 데이터 보호를 위해 제공

: 구조 데이터같은 엄격한 schema내부에 저장되는 것은 아니지만, 조직적인 데이터(tags,metadata)가 데이터 내부에 존재한다.

: 사전 정의된 schema나 조직적인 format없이 저장되는 데이터.깔끔한 관계형 대ㅔ이터베이스에는 적절하지 않고 특별한 처리과정이 필요하다(store,retrieve,analyze)
Q. Ustructured Data를 다루는 방법?
A1. NoSQL Databases-MongoDB,Cassandra
A2. Data Lakes -Hadoop,AWS S3
A3. AI & NLP
: 이산적인 카테고리나 무리로 분류될 수 있는 값. Qualitative data(질적)라고도 하며, 이산적인 계산이나 수를 비교하지 못함
:연산작업을 할 수 있고 측정할 수 있는 값들로 구성된 데이터.Quantitive data(양적)이라고도 함.