[Data Engineering]ch2. Storing Data

망고 언니·2024년 3월 18일

Structed Data

  • 검색이 쉬움
  • 특정 유형 사용
  • 데이터 테이블에 적합한 데이터이며
  • 숫자, 짧은 텍스트, 날짜와 같은 이산형 데이터 유형이 포함
  • 정형데이터의 저장소 예시 관계형 데이터베이스, 공간 데이터베이스, OLAP 큐브

Semi-Structed Data

  • 유연성
  • 구조화된 데이터만큼 간단하지 않음
  • Json, Xml,YAML 파일형식을 사용

Unstructed Data

  • 열과 형식으로 구성되어있지않음
  • 이미지, 텍스트, 비디오 다양한 형식

SQL:

한 번에 많은 레코드에 액세스하고 그룹화, 필터링 또는 집계할 수 있습니다.
이미 아시다시피 데이터 엔지니어는 SQL을 사용하여 데이터베이스를 만들고 유지하는
반면, 데이터 과학자는 SQL을 사용하여 데이터베이스를 쿼리합니다.
참고) boolean: TRUE, FLASE를 반환하여 1,0만을 저장할 수 있음


[출처:datacamp]

DATALAKE, DATAWAREHOUSE

  • DATALAKE : 다른 소스에서 업로드된 것처럼 수집된 모든 RAW 데이터가 저장
    그건 처리되지 않았고 지저분합니다.
    구조화, 반구조화 또는 비구조화 여부에 관계없이 모든 종류의 데이터를 저장 가능
    데이터 과학자들이 빅 데이터에 대한 실시간 분석을 위해 사용
  • DATA WAREHOUSE: 특정 용도를 위해 특정 데이터를 저장한다.
    예를 들어, 사용자와 구독 유형 또는 행동 분석을 위한 모든 청취 세션.
    ->웨어하우스는 보통 꽤 작다(Data lake에 비하여) 데이터 레이크는 구조화, 반구조화 또는 비구조화 여부에 관계없이 모든 종류의 데이터를 저장할 수 있습니다.
    구조화된 형식을 시행하여 조작 비용이 더 많이 든다.
    집계 및 요약과 같은 임시 읽기 전용 쿼리를 위해 분석가가 사용


[출처datacamp]

profile
안녕하세요. DBA 망고언니입니다.

0개의 댓글