3. Day 3-3

data_hamster·2023년 5월 26일

학습주제
Redshift 기타 서비스

학습내용

Redshift Spectrum(s3 큰 파일을 외부 테이블로 사용할 수 있게함)
Redshift Serverless
Athena (별도 서비스. 스펙트럼과 많은 유사성이 있음.) 아파치 프레스토
Redshift ML

아파치 프레스토는 오픈 소스 분산 SQL 쿼리 엔진입니다. 이는 대량의 데이터를 처리하고 분석하기 위한 고속 및 확장 가능한 도구입니다. 프레스토는 대용량 데이터 웨어하우스와 데이터 레이크에서 작동하며, 복잡한 분석 작업을 수행할 수 있습니다. 프레스토는 ANSI SQL을 지원하며, 다양한 데이터 소스에 연결할 수 있는 플러그인 아키텍처를 가지고 있습니다. 이를 통해 프레스토는 다양한 데이터 형식과 데이터베이스 시스템과의 상호 운용성을 제공합니다. 또한 프레스토는 확장성이 뛰어나며, 클러스터 환경에서 여러 노드를 활용하여 높은 성능을 달성할 수 있습니다. 이러한 특징으로 인해 프레스토는 대규모 데이터 분석 및 쿼리 작업에 널리 사용되고 있습니다.

Athena는 분산 SQL 쿼리 엔진으로 작동하며, S3에 저장된 데이터를 쿼리할 수 있습니다. Athena는 SQL을 사용하여 데이터를 질의하고 분석할 수 있는 간단하고 직관적인 인터페이스를 제공합니다.

별도의 사인업, 서비스 세팅이 필요하지 않음

AWS Athena는 완전히 관리되는 서버리스 쿼리 서비스로, 데이터를 Amazon S3에 저장된 파일로부터 직접 쿼리할 수 있습니다. 즉, Athena는 S3에 저장된 데이터를 쿼리하기 위한 엔진입니다. Athena는 SQL을 사용하여 데이터를 쿼리하고 분석할 수 있는 간단하고 직관적인 인터페이스를 제공합니다. Athena는 필요한 시기에 필요한 만큼만 쿼리를 수행하여 비용을 최적화할 수 있는 장점이 있습니다.
반면에 AWS Spectrum은 Amazon Redshift 데이터 웨어하우스 서비스와 함께 사용되는 기능입니다. Spectrum은 Redshift 클러스터에서 실행되는 엔진으로, Redshift 클러스터의 데이터에 대한 쿼리 작업을 수행합니다. Spectrum은 Redshift 클러스터 내부에서 S3에 저장된 데이터에 대한 쿼리를 실행하므로, Redshift와 S3 간의 통합 쿼리 기능을 제공합니다. Spectrum은 Redshift와 연계하여 데이터를 분석하고 처리할 수 있는 기능을 제공합니다.

같은 지역의 S3, 클러스터가 있으면 같이 사용.
S3 데이터가 있는 경우, redshift 로 로딩 하지 않고, s3에서 확장테이블 처럼 쓸 수 있음.
s3 큰 데이터와, redshift와 조인 연산 가능
데이터 레이크 - S3 정보를 처리할 수 있는 기능을 레드쉬프트에 구현-> 스펙트럼

외부 데이터는 큰 테이블 - Fact 테이블
크기가 작은 테이블 - dimension 테이블

1TB 스캔할 때마다 5불 씩 과금
레드쉬프트 클러스터가 있으면 언제든 사용하고 과금하면 됨.
제약점. 그파일이 있는 s3 지역과 클러스터 지역이 같아야 함.

그냥 레드쉬프트 클러스터 -프로비전드 클러스트 (고정비용)
서버리스 - 가변비용. 쓴만큼 돈이 나가는 모델.
안써도 테이블을 적재해놓으면 돈이 빠짐