대규모 주류 판매 데이터 분석

dpwl·2024년 6월 13일
0

Data Analysis with SQL

목록 보기
98/120

1. 데이터 분석가가 인사이트를 제공하는 과정

1) 데이터 수집

  • 데이터 엔지니어의 영역
  • 수집된 데이터를 분석가가 사용

2) 데이터 처리

  • 데이터 추출, 필터링, 그룹화, 조인 등
  • 이상치 제거, 분포 변환, 표준화, 카데고리화 등

3) 데이터 분석

  • 지표 개발/산출
  • EDA (탐색적 데이터 분석)
  • 통계 분석
  • 머신러닝 등

4) 리포팅

  • 시각화
  • 대시보드

2. 대용량 데이터의 활용

데이터 처리의 필요성

  • 데이터 분석가에게도 대용량의 데이터를 고속으로, 효율적으로 처리하는 방법이 필요하다.
  • 목적에 맞는 데이터 테이블을 활용하여 인사이트를 제공하기 위해서 Raw 데이터를 다룰 수 있는 능력이 필요하다.

2.1 Apache Spark

Apache Spark는 SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진이다.

profile
거북선통통통통

0개의 댓글