데이터 인프라 이해하기(1)

Coding_Holic·2022년 9월 9일
0
post-thumbnail

데이터 인프라

데이터 인프라의 목적

  1. 비지니스 리더들의 의사결정을 도와주기(Analytic Systems)
  2. 서비스/제품을 데이터의 도움을 받아 향상시키기(Operational Systems)
  • 데이터 인프라 기초
    • Production Systems
      • normalized Schema(테이블을 작게 쪼개서 저장)
      • 빠른 데이터 업데이트
    • 데이터 웨어하우스
      • dimensional Schema -> star 구조
      • 원하는 데이터만 뽑아서 쓰기 위해서
      • 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장
    • ETL
      • 데이터를 production systems에서 data warehouse로 옮긴다.
      • 추출(Extract data from production systems)
      • 변환(Transform normalized to dimensional schema)
      • 적재(Load into Data Warehouse)
      • 문제점 1. 추출 변환 자동화 X 2. 회사마다 시스템 다 다름
    • ELT
      • ETL의 문제점으로
      • 추출 -> 적재 -> 변환으로 바꾼다
      • 추출에서 적재는 자동화가 가능하기 때문
      • 변환만 따로

데이터 직종

Data Analyst

  • 데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람
  • 요구기술
    • 통계학, 수학, 커뮤니케이션, 스프레드시트 & db
  • 언어 SQL R Python

Data Engineer

  • 빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람
  • 요구기술
    • 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식
      , ETL 및 BI 도구들에 대한 지식
  • 언어 Python SQL 쉘 스크립트

Data Scientist

  • 수학자+과학자+도메인전문가
  • 요구기술
    • 수학, 통계학, ML, 딥러닝, 분산 컴퓨팅, 데이터 모델링 스토리텔링, 시각화, 도메인 지식, 커뮤니케이션
  • 언어 SQL Python R

용어 익히기

  • Sources
    • 회사 내의 데이터가 만들어지는 곳
  • Ingestion and Transformation
    • 가져와서 변환
  • Storage
    • 저장소 ex) 웨어하우스, 데이터 레이크
  • Historical
    • 예전 데이터 분석
  • Predictive
    • 미래 데이터 예측
  • Output
    • 분석 결과
profile
안녕하세용 개발에 미치고 싶은 초보 개발자입니다:)

0개의 댓글