[TIL] AWS CCP(3) - Data Analytics Service

sorzzzzy·2022년 4월 22일
0

TIL

목록 보기
27/36
post-thumbnail

EMR(Elastic MapReduce)

대용량 데이터 분석을 위한 빅데이터 플랫폼(Petabyte 수준)

Hadoop, Spark를 AWS에서 사용 가능하게 만들어준 것

Auto Scaling 가능


RedShift

데이터 웨어하우스 서비스(DW) - OLAP 서비스를 광범위하게 표현한 것
-> OLAP 데이터베이스 (데이터를 분석하기 위한 데이터베이스)

다양한 서비스들과 결합
-> 분석 : EMR
-> 수집 : Kinesis
-> 시각화(BI) : QuickSight


Kinesis

데이터 수집
스트림 데이터를 실시간으로 수집/처리하기 위한 완전 관리형 서비스

로그 파일, 클릭 스트림, IoT 디바이스 등 다양한 소스와 연동
스트림 데이트를 S3, RedShift, Elasticsearch 등으로 저장 가능

Elasticsearch : 기본적으로 검색을 위해 사용, NoSQL

Kinesis Family

  • Kinesis Data Stream : 데이터가 생성되는 곳에서 데이터를 가져옴
  • Kinesis Data Firehose : 가져온 데이터를 적절한 저장소로 적재
  • Kinesis Data Analytics : SQL로 실시간 데이터 처리

Athena

S3에 저장되어 있는 데이터를 SQL로 분석하는 serverless 서비스
-> 별도의 인프라 구성이 필요없음
-> 쿼리 시 스캔한 데이터에 대해서만 비용 지불


QuickSight

시각화BI(Business Intelligence) 서비스 라고도 함
서버리스
데이터 소스로 다양한 것들이 존재함(redshift, s3 등)
머신러닝 기반의 인사이트 제공, 자연어 질의응답 가능


Glue

완전관리형 데이터 ETL 서비스 - 데이터 통합 서비스로 확장됨

ETL(Extract Transform Load)
OLTP에서 OLAP로 데이터를 가져오는 과정(그때그때, 주기적으로)

S3, Redshift, RDS, Kinesis 등과 통합 가능

데이터 전 처리

profile
Backend Developer

0개의 댓글