'실리콘밸리에서 날아온 데이터 분야 커리어 특강' 한기용님의 강의 중 중요하다고 생각하는 부분을 정리했습니다.
데이터 팀의 목표
"신뢰할 수 있는 데이터를 바탕으로 부가가치 생성"
데이터 조직이 하는 일
데이터 분석가
- 데이터 기반 지표 정의
- 대시보드
- 리포트 생성
등등
데이터 사이언티스트
- 머신러닝 알고리즘을 통해 사용자 서비스 경험 개선
- 패턴을 통해 프로세스 최적화
등등
데이터 엔지니어링
- 인프라 구축
- 데이터를 수집, 축척, 정제
등등
데이터 웨어하우스
회사에 필요한 다양한 데이터를 수집에서 저장하는 (중앙) 공간
데이터 팀의 발전 단계
- 데이터 엔지니어가 데이터 인프라를 구축 (Data Warehouse 구축)
- 데이터 분석을 통해 지표를 정의하고 시각화 한다.
- 데이터 과학 적용하여 패턴화/최적화를 통해 사용자 경험을 개선
- 더 많은 데이터가 생성됨
데이터 엔지니어링
Production Database vs. Data Warehouse
프로덕션 DB와 데이터 웨어하우스는 별개의 DB로 운용되어야 한다.
- 프로덕션 DB는 서비스의 데이터를 수집하는 DB
- OLTP: OnLine Transaction Processing
- 응답속도가 빨라야 한다.
- 엔드 유저를 위한 DB
- 서비스 운영 관점
- 데이터 웨어하우스
- OLAP: OnLine Analytical Processing
- 프로덕션 DB를 포함
- 내부 직원을 위한 DB
- 처리할 수 있는 데이터의 크기가 크다. (속도가 느릴 수 있다)
데이터 웨어하우스
데이터의 크기가 커진다면 다음 중 하나를 선택
- AWS Redshift
- Google BigQuery
- Snowflake
- Hadoop/Spark
전부 SQL 지원
ETL
- Extract: 외부 데이터 소스에서 추출
- Transform: 데이터 포맷을 변환/통일
- Load: 데이터 웨어하우스에 적재
데이터 파이프라인이라고 부르기도 함
ETL을 관리하는 Framework: Airflow
오픈소스 프로젝트로 Python3 기반하여 Airbnb에서 시작.
AWS와 GCP에서도 지원함.
ETL 관련 SaaS: FiveTran, Stitch Data
데이터 분석
시각화 대시보드
- 보통 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
- 지표의 경우 3A(Accessible, Actionable, Auditable)가 중요
- Accessible: 대쉬보드 형태로 쉽게 접근이 가능한가? 회사에 대쉬보드가 있으면 해결 가능
- Actionable: 지표의 변화가 분명한 의미를 가지고 있는가?
- Auditable: 이 지표가 개선 되었는지 검증이 가능한가?
- 중요 지표의 예시: 매출액, 월간/주간 액티브 사용자 수 등
가장 널리 사용되는 대시보드
- GCP Looker
- Salesforce Tableau
- MS PowerBI
- 오픈소스 Apache Superset
데이터 사이언스
머신러닝 모델을 만들어서 최적화 혹은 서비스 개선을 수행함