데이터팀의 미션
데이터 팀이 하는 일
데이터 조직의 미션은?
- 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성
- 신뢰하지 못할 데이터는 쓰레기일 뿐이다.
- 데이터의 잘못된 노출과 사용으로 인한 위험을 줄여야 됨.
- 데이터를 고려한 결정 vs 데이터 기반 결정
- 데이터를 고려한 결정 : 내 의견이 있고 데이터를 부가적으로 사용하며 결정을 내림
- 데이터 기반 결정 : 내 의견 보다는 데이터를 우선적으로 사용 하여 결정을 내림
- 이 두 결정과정 중 데이터를 고려한 결정 이 더 맞다고 생각함. 왜냐하면 데이터는 계속해서 변화하지만 수집 된 데이터는 이미 과거의 데이터일 뿐으로 무조건 데이터를 믿고 가기보다는 부가적으로 사용할 수 있도록 해야 됨. (but 데이터 기반 결정을 내릴때에 도 있음)
데이터의 흐름과 데이터 팀의 발전 단계
- 데이터 생성
→데이터 인프라에 데이터 기록[데이터 엔지니어]
→데이터 분석 (지표 정의, 시각화) [데이터 분석가]
→데이터 과학 적용 * 사용자 경험 개선( 추천, 검색 등의 개인화 알고리즘)[데이터 과학자]
1. 데이터 인프라 구축
데이터 인프라의 구축은 데이터 엔지니어가 수행함.
ETL : 야생의 데이터 소스에서 데이터를 추출 후 내가 원하는 포멧으로 변화 후 데이터 웨어하우스에 적재
다루는 데이터의 크기가 커지면 빅데이터 처리 기술 습득이 필요(오픈소스 Spark 사용)
- 데이터 웨어하우스
- 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스(SQL 데이터베이스)
- 보통 다음 중 하나를 선택[클라우드 옵션]
- AWS Redshift
- 구글 클라우드의 BigQuery
- Snowflake
- 오픈소스 기반의 Hive/Presto
- 프로덕션용 데이터베이스와 데이터 분석을 위한 데이터베이스는 별개이어야 됨
용어설명
데이터 레이크 :
데이트 웨어하우스보다 더 큰 데이터.
구조화 + 비구조화 데이터
보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움
데이터 웨어하우스:
보존 기한이 있는 구조화된 데이터를 저장하는 스토리지
보통 BI 툴들 은 데이터 웨어하우스를 백엔드로 사용함.
2. 데이터 분석 수행
ETL을 통한 데이터를 분석하여 새로운 정보 생성 (지표 정의, 시각화, 리포팅)
데이터 엔지니어는 요청오는 대로 ETL을 생성할 뿐 이를 분석을 위한 용도로 만드는 것이 아니기때문에 생성한 ETL에서 바로 데이터 분석하는 것은 사실상 불가능하다.
그렇기에 데이터 분석가들은 ETL된 데이터를 조합하여 새로운 정보 ELT를 생성해야 된다(DBT라는 툴을 사용).
지표의 종류
- KPI
- 조직내에서 달성하고자 하는 중요한 목표
- 정의가 중요함.
- KPI의 수는 적을수록 좋음
- 매출액, 고객의 만족도(고객의 강의 소비 수)를 KPI로 했을때 서로 상충하게 됨으로 좋지않은 KPI가 됨.
- 잘 정의된 KPI → 현재 상황을 알고 더 나은 계획 가능
- 정량적이기에 시간에 따른 성과를 추적하는 것이 가능
- OKR 과 같은 목표 설정 프레임웍의 중요한 포인트
- 시각화 대시보드
- 보통 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
- 지표의 경우 3A가 중요
- Accessible : 쉽게 볼 수 있냐
- Actonable : 지표를 봤을 때 어떤 액션을 취해야 되는지 판단이 가능하냐
- Auditable : 지표를 감사하기 쉬운가.
- 가장 널리 사용되는 대시보드
- 세일즈포스의 태블로
- 마이크로소프트의 파워 BI
- 구글 클라우드의 룩커
3. 데이터 과학 적용
데이터 과학자가 머신러닝 모델을 만들어서 수행함.
예시)
추천, 검색등의 개인화.
공장의 경우 공정 과정 최적화.
