DP900 공부 (1) - 데이터 기본

손아현·2025년 8월 25일

MS DataSchool

목록 보기
8/8

데이터 형식 식별

  • 정형 데이터
    • 대부분 표 형식 스키마
  • 반정형 데이터
    • 일반적 형식 : Json (서로 다른 정보를 유용하게 담기에 좋음)
  • 비정형 데이터
    • NLP, ML등 사용

데이터 저장소 (Data Storage)

  • 관계형 데이터베이스(RDB)
    • 앤터티를 참조할 수 있음
    • 따라서, 정규화될 수 있음. (중복된 데이터 제거)
  • 비관계형 데이터베이스(NoSQL)
    • 스키마가 없거나 느슨하게 적용
    • 반정형/비정형 데이터에 적합
    1. 키-값 데이터베이스 : 각 레코드가 고유한 키
    2. 문서 데이터베이스 : (1번)키-값 데이터베이스에서 값이 Json인 형태
    3. 열 패밀리 데이터베이스 : 열이 열 패밀리로 구성됨
      • 열 패밀리? : 계층이 존재하는 열.
      • ex) 1depth열 : Customer, 2depth열 : Name, Address
    4. 그래프 데이터베이스 : 엔터티를 노드로 저장, 엔터티(노드) 간 관계를 링크로 정의
  • 클라우드
  • 데이터 레이크

파일 스토리지

  • 데이터를 파일 단위로 저장하고 관리하는 방식
  • 폴더와 파일의 계층 구조로 저장
  • 계층 구조로 쉽게 접근 및 관리 가능
  • 여러 사용자가 동시에 접근 및 수정할 수 있음
  • 네트워크 연결 스토리지에서 주로 사용

파일 형식

  • 파일 형식에 따라 어떤 프로그램으로 열지 정하게 됨
  • .csv : 대량의 데이터 경우에 유용
  • .json : 경량 데이터 교환 형식
    • 정형/반정형에 모두 적합
    • 계층 구조 (중괄호 : object, 대괄호 : array)
    • 특정 언어 없는 경우가 많음
  • XML : 확장 가능한 마크업 언어
    • 사람이 읽을 수 있는 데이터
    • 데이터 표시보다 전달과 저장에 중점
    • 사용자가 직접 태그 걸 수 있음
    • 웹 서비스, API 교환 등에 쓰임
  • BLOB : DB에서 대용량 이진 데이터를 저장하기 위한 데이터 유형
    • Binary Large Object
    • 이미지, 비디오, 오디오 등 멀티 미디어 객체 저장 가능
    • 주요 특징 및 크기에 따라 최대 용량 달라짐
    • MIME 타입을 지정할 수 있어, 데이터 유형을 명확히 함.
      • MIME 타입 : 파일의 종류와 형식을 알려주는 역할
    • 무결성에 특화

최적화된 파일 형식

  • 정형/반정형 데이터는 읽기에 편하지만, 스토리지 공간 및 처리에 최적화 되지 않은 경우 많음
  • 따라서 압축, 인덱싱, 효율적인 처리 등을 지원하는 특수 파일 형식 존재
  • Avro : 웹 기반 형식, Apache에서 만듦
    • 각 레코드에 데이터 구조 헤더가 있고, JSON으로 저장됨
    • 이진 정보로 저장됨
    • 압축 가능함
  • ORC : Horton Works가 Apache Hive에서 읽기 및 쓰기를 최적화하기 위해 개발
    • 데이터를 행이 아닌 열로 구성
    • 데이터의 스트라이크(열(들), 행에 대한 인덱스, 행의 데이터, 열의 통계정보)가 포함됨
  • Parquet :
    • 데이터를 행이 아닌 열로 구성
    • 각 행 그룹에 하나 이상의 데이터 청크가 포함됨
    • 메타데이터가 존재하여, 이를 사용해서 올바른 청크를 빠르게 찾고 검색
    • 중첩된 데이터를 효율적으로 저장 및 처리

데이터베이스 검색

  • 관계형/비관계형에 따라 검색 방법 다름

  • 관계형 데이터베이스(RDB) : SQL 언어 사용

    • 테이블 형식이어서 열,행을 기준으로 찾음
    • 테이블 간 관계로 복잡한 검색도 가능
  • 비관계형 데이터베이스(NoSQL) : 각 DB마다 다른 방식 사용

    • ex) Mongo DB : Json기반 쿼리 사용
    • 복잡한 관계 검색은 어려울 수 있음
  • 파일시스템 : 저장소 역할을 하는 (특별한) DB

  • 일반적인 DB : 파일이 아닌 데이터 레코드를 관리하는 DB

트랜잭션 데이터 처리

  • 트랜젝션 데이터 처리 시스템 : OLTP(Online Transjaction Process)라고 함
  • 특정 이벤트를 기록하는 트랜잭션을 캡슐화
    • 트랜잭션 : 거래 등, 대규모 데이터 처리
  • AICD(원자성, 일관성, 격리, 내구성) 의미체계 지원을 통해 무결성 실현?
    • 원자성 : 완전히 성공하거나/실패
    • 일관성 : 유효한 상태에서, 다른 유효성 상태로만 데이터 받을 수 있음
    • 격리 : 트랜젝션이 동시에 진행될 경우, 서로 간섭할 수 없음, 일관된 정보 반영
    • 내구성 : 커밋되면, 커밋된 상태로 유지.

분석 데이터 처리

  • 일반적인 분석 처리 시스템 과정
  • 특정 시점의 데이터 스냅샷 또는 일련의 스내샷을 토대로 진행됨
    1. 데이터 추출, 변환, 로드 (ETL) : 소스에서 가져와서 필요 형태로 변환 후, 저장소(데이터 레이크)에 저장. 완전히 처리된 상태여야 함
    2. 데이터 스키마 로드 : 테이블 형식으로 정리. Spark 기반의 데이터 레이크 하우스나 / SQL 데이터 웨어하우스에 서 이루어짐
    3. OLAP 모델로 집계 : 데이터 웨어하우스에 저장된 데이터를 분석하기 쉽게 요약함 (e.g. '합계' 같은 요약 정보 만듦)
    4. 쿼리 및 시각화 : 보고서, 그래프, 대시보드 만듦


Azure 서비스

Azure Database

  • Azure에서 오픈소스 데이터 베이스를 클라우드에서 사용할 수 있도록 하는 서비스
  • MySQL : 웹사이트나 앱 개발에 쓰이는 DB / LAMP에서 자주 스임
  • Maria DB : MySQL의 새로운 버전, Oracle DB와 호환성 제공
  • PostgreSQL : 더 진화된 DB, 관계형 DB 뿐만 아니라 사용자 지정 DB도 저장 가능

Azure Cosmos DB

  • Azure에서 데이터 베이스를 클라우드에서 사용할 수 있도록 하는 서비스
  • 전세계 어디에서나 사용가능한 것
  • 글로벌 규모의 비정형 DB(NoSQL)
    ⇒ 다양한 형식의 데이터를 빠르게 저장, 분석할 수 있는 글로벌 DB

Azure Storage DB

  • Azure에서 데이터 베이스를 클라우드에서 사용할 수 있도록 하는 서비스
  • 데이터를 안전하게 저장하는 서비스
  • 데이터를 저장하는 공간
  • Blob 컨테이너/ 파일 공유 / 테이블 / 디스크 등 다양한 크기와 용도로 저장
    ⇒ 파일, 문서, 설정 값 등을 안전하게 저장하는 DB

Azure에서 제공하는 데이터 서비스

  • Azure Data factory
  • Azure Synapse Analytics

Azure Data factory (ADF)

  • 데이터 가공(전송,변환)하는 파이프라인을 정의/예약 가능
  • 엔지니어가 ERL 솔루션을 빌드하여, 분석 데이터 저장소를 채우는데 사용

Azure Synapse Analytics

  • 데이터 분석을 위한 기능을 단일 서비스 인터페이스에서 제공하는 PasS 솔루션
  • 주요 기능
    • Pipelines : ADF같은 역할
    • SQL
    • Apache Spark : 대용량 처리
    • Qpace Synapse 데이터 탐색기 : KQL언어를 사용해서 실시간 로그 분석에 최적화


Azure에서 제공하는 빅데이터 서비스

  • Azure DataBricks
  • Azure DataBricks

Azure DataBricks

  • Apache Spark 기반의 빠른 데이터 분석 및 머신러닝 제공
  • 주요 기능
    • SQL 활용 가능
    • 통합 관리 인터페이스
    • 전자 필기장

Azure HDInsight

  • Apache Hadoop 기반의 대규모 데이터 처리 및 분석
  • 주요 기능
    • Apache Spark : 여러 언어 지원하는 분산 데이터 처리 시스템
    • Apache Hadoop : 대량의 데이터를 여러 클러스터 노드에서 저장,처리하는 분산 시스템
    • Apache Hbase : NoSQL 방식으로 데이터 저장, 쿼리
    • Apache Kafka : 스트림 처리를 위한 메시지 브로커

Azure에서 제공하는 데이터 관리 도구

  • Microsoft Purview
  • Microsoft Fabric
    서로 보완적인 역할을 함

Microsoft Purview

  • 데이터 카탈로그
  • 조직 내 데이터를 쉽게 찾고 관리
  • 데이터 계보 추적 등 가능

Microsoft Fabric

  • 데이터 분석 플랫폼
  • 개방형 및 관리형 레이크 하우스를 기반으로 사용하는 SaaS 분석 플랫폼
profile
서비스기획/.AI/데이터분석

1개의 댓글

comment-user-thumbnail
2025년 10월 8일

안녕하세요 아현님! 3차 프로젝트 같이한 팀원입니다! 자격증 합격 축하드립니다!👏
나중에 제 블로그도 와주세요!
https://blog.naver.com/audrbs1579 😉

답글 달기