[1일차]데이터팀의 미션

김준석·2023년 12월 26일
0

데이터팀의 미션

데이터 팀이 하는 일


데이터 조직의 미션은?

  • 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성
    • 신뢰하지 못할 데이터는 쓰레기일 뿐이다.
    • 데이터의 잘못된 노출과 사용으로 인한 위험을 줄여야 됨.
  • 데이터를 고려한 결정 vs 데이터 기반 결정
    • 데이터를 고려한 결정 : 내 의견이 있고 데이터를 부가적으로 사용하며 결정을 내림
    • 데이터 기반 결정 : 내 의견 보다는 데이터를 우선적으로 사용 하여 결정을 내림
    • 이 두 결정과정 중 데이터를 고려한 결정 이 더 맞다고 생각함. 왜냐하면 데이터는 계속해서 변화하지만 수집 된 데이터는 이미 과거의 데이터일 뿐으로 무조건 데이터를 믿고 가기보다는 부가적으로 사용할 수 있도록 해야 됨. (but 데이터 기반 결정을 내릴때에 도 있음)

데이터의 흐름과 데이터 팀의 발전 단계

  • 데이터 생성
    →데이터 인프라에 데이터 기록[데이터 엔지니어]
    →데이터 분석 (지표 정의, 시각화) [데이터 분석가]
    →데이터 과학 적용 * 사용자 경험 개선( 추천, 검색 등의 개인화 알고리즘)[데이터 과학자]

1. 데이터 인프라 구축

데이터 인프라의 구축은 데이터 엔지니어가 수행함.

ETL : 야생의 데이터 소스에서 데이터를 추출 후 내가 원하는 포멧으로 변화 후 데이터 웨어하우스에 적재

다루는 데이터의 크기가 커지면 빅데이터 처리 기술 습득이 필요(오픈소스 Spark 사용)

  • 데이터 웨어하우스
    • 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스(SQL 데이터베이스)
      • 보통 다음 중 하나를 선택[클라우드 옵션]
        • AWS Redshift
        • 구글 클라우드의 BigQuery
        • Snowflake
        • 오픈소스 기반의 Hive/Presto
      • 프로덕션용 데이터베이스와 데이터 분석을 위한 데이터베이스는 별개이어야 됨

용어설명

  • 데이터 레이크 / 데이터 웨어하우스

데이터 레이크 :

데이트 웨어하우스보다 더 큰 데이터.

구조화 + 비구조화 데이터

보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움

데이터 웨어하우스:

보존 기한이 있는 구조화된 데이터를 저장하는 스토리지

보통 BI 툴들 은 데이터 웨어하우스를 백엔드로 사용함.

2. 데이터 분석 수행

ETL을 통한 데이터를 분석하여 새로운 정보 생성 (지표 정의, 시각화, 리포팅)

데이터 엔지니어는 요청오는 대로 ETL을 생성할 뿐 이를 분석을 위한 용도로 만드는 것이 아니기때문에 생성한 ETL에서 바로 데이터 분석하는 것은 사실상 불가능하다.

그렇기에 데이터 분석가들은 ETL된 데이터를 조합하여 새로운 정보 ELT를 생성해야 된다(DBT라는 툴을 사용).

지표의 종류

  • KPI
    • 조직내에서 달성하고자 하는 중요한 목표
    • 정의가 중요함.
    • KPI의 수는 적을수록 좋음
      • 매출액, 고객의 만족도(고객의 강의 소비 수)를 KPI로 했을때 서로 상충하게 됨으로 좋지않은 KPI가 됨.
    • 잘 정의된 KPI → 현재 상황을 알고 더 나은 계획 가능
      • 정량적이기에 시간에 따른 성과를 추적하는 것이 가능
      • OKR 과 같은 목표 설정 프레임웍의 중요한 포인트
  • 시각화 대시보드
    • 보통 중요한 지표를 시간의 흐름과 함께 보여주는 것이 일반적
      • 지표의 경우 3A가 중요
        • Accessible : 쉽게 볼 수 있냐
        • Actonable : 지표를 봤을 때 어떤 액션을 취해야 되는지 판단이 가능하냐
        • Auditable : 지표를 감사하기 쉬운가.
      • 가장 널리 사용되는 대시보드
        • 세일즈포스의 태블로
        • 마이크로소프트의 파워 BI
        • 구글 클라우드의 룩커

3. 데이터 과학 적용

데이터 과학자가 머신러닝 모델을 만들어서 수행함.

예시)

추천, 검색등의 개인화.

공장의 경우 공정 과정 최적화.

0개의 댓글