데이터 조직하는 일

PhaseSmith·2023년 2월 20일
0

'실리콘밸리에서 날아온 데이터 분야 커리어 특강' 한기용님의 강의 중 중요하다고 생각하는 부분을 정리했습니다.

데이터 팀의 목표

"신뢰할 수 있는 데이터를 바탕으로 부가가치 생성"

데이터 조직이 하는 일

데이터 분석가

  • 데이터 기반 지표 정의
  • 대시보드
  • 리포트 생성
    등등

데이터 사이언티스트

  • 머신러닝 알고리즘을 통해 사용자 서비스 경험 개선
  • 패턴을 통해 프로세스 최적화
    등등

데이터 엔지니어링

  • 인프라 구축
  • 데이터를 수집, 축척, 정제
    등등

데이터 웨어하우스

회사에 필요한 다양한 데이터를 수집에서 저장하는 (중앙) 공간

데이터 팀의 발전 단계

  1. 데이터 엔지니어가 데이터 인프라를 구축 (Data Warehouse 구축)
  2. 데이터 분석을 통해 지표를 정의하고 시각화 한다.
  3. 데이터 과학 적용하여 패턴화/최적화를 통해 사용자 경험을 개선
  4. 더 많은 데이터가 생성됨

데이터 엔지니어링

Production Database vs. Data Warehouse

프로덕션 DB와 데이터 웨어하우스는 별개의 DB로 운용되어야 한다.

  • 프로덕션 DB는 서비스의 데이터를 수집하는 DB
    • OLTP: OnLine Transaction Processing
    • 응답속도가 빨라야 한다.
    • 엔드 유저를 위한 DB
    • 서비스 운영 관점
  • 데이터 웨어하우스
    • OLAP: OnLine Analytical Processing
    • 프로덕션 DB를 포함
    • 내부 직원을 위한 DB
    • 처리할 수 있는 데이터의 크기가 크다. (속도가 느릴 수 있다)

데이터 웨어하우스

데이터의 크기가 커진다면 다음 중 하나를 선택

  • AWS Redshift
  • Google BigQuery
  • Snowflake
  • Hadoop/Spark
    전부 SQL 지원

ETL

  • Extract: 외부 데이터 소스에서 추출
  • Transform: 데이터 포맷을 변환/통일
  • Load: 데이터 웨어하우스에 적재
    데이터 파이프라인이라고 부르기도 함

ETL을 관리하는 Framework: Airflow

오픈소스 프로젝트로 Python3 기반하여 Airbnb에서 시작.
AWS와 GCP에서도 지원함.
ETL 관련 SaaS: FiveTran, Stitch Data

데이터 분석

시각화 대시보드

  • 보통 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
    • 지표의 경우 3A(Accessible, Actionable, Auditable)가 중요
      • Accessible: 대쉬보드 형태로 쉽게 접근이 가능한가? 회사에 대쉬보드가 있으면 해결 가능
      • Actionable: 지표의 변화가 분명한 의미를 가지고 있는가?
      • Auditable: 이 지표가 개선 되었는지 검증이 가능한가?
    • 중요 지표의 예시: 매출액, 월간/주간 액티브 사용자 수 등

가장 널리 사용되는 대시보드

  • GCP Looker
  • Salesforce Tableau
  • MS PowerBI
  • 오픈소스 Apache Superset

데이터 사이언스

머신러닝 모델을 만들어서 최적화 혹은 서비스 개선을 수행함

profile
우리는 데이터와 하나다

0개의 댓글