Redshift vs Athena 03

Q·2024년 5월 17일

AWS

목록 보기

14/15

Amazon Redshift 데이터를 Amazon S3로 이전하고 Amazon Athena를 사용하여 데이터를 쿼리해야 하는 경우를 데이터 레이크 아키텍처, 비용 절감, 서버리스 환경의 특징을 들어 설명

예시 상황: 금융 데이터 분석

배경

한 금융 회사는 고객 거래 데이터를 Amazon Redshift에 저장하고 있으며, 이를 통해 복잡한 분석 및 보고 작업을 수행하고 있다. 그러나 회사는 더 많은 데이터 소스와의 통합, 비용 절감, 유연한 분석 환경 구축을 원하고 있는 상황이다.

데이터 레이크 아키텍처

상황

회사는 다양한 데이터 소스 (예: 로그 파일, 소셜 미디어 데이터, 고객 서비스 기록 등)를 통합하여 하나의 중앙 데이터 저장소에 저장하고자 한다.
데이터 레이크를 구축하여 구조화된 데이터와 비구조화된 데이터를 모두 저장하고 분석할 수 있는 환경을 원한다.

해결책

Redshift 데이터를 S3로 이전하여 데이터 레이크에 통합.
다양한 데이터 소스를 S3에 저장.
Athena를 사용하여 필요할 때 데이터를 쿼리하고 분석.

특징

중앙화된 저장소: 모든 데이터가 S3에 저장되어 데이터 소스 간의 통합이 용이하다.
다양한 데이터 포맷 지원: CSV, JSON, Parquet, ORC 등 다양한 포맷의 데이터를 저장하고 쿼리할 수 있다.
확장성: S3의 확장성을 활용하여 대규모 데이터를 효율적으로 관리할 수 있다.

비용 절감

상황

회사는 Redshift 클러스터의 지속적인 사용으로 인해 높은 비용이 발생하고 있다.
비용을 절감하면서도 데이터 분석을 위한 효율적인 대안을 찾고자 한다.

해결책

Redshift에서 자주 사용하지 않는 데이터를 S3로 이전.
Athena를 사용하여 S3의 데이터를 필요할 때만 쿼리.
Redshift는 실시간 분석이 필요한 데이터에만 사용하여 비용을 절감.

특징

비용 효율성: S3는 저장 비용이 저렴하고, Athena는 쿼리당 비용을 지불하므로 비용 절감 효과가 크다.
저장 비용 절감: 자주 액세스하지 않는 데이터는 S3에 저장하여 Redshift의 스토리지 비용을 줄인다.
유연한 비용 구조: Athena의 사용량 기반 요금 체계를 통해 필요한 시점에만 비용을 지불한다.

서버리스 환경

상황

회사는 데이터 분석을 위한 인프라 관리를 최소화하고, 개발 및 분석 작업에 집중하고자 한다.
서버 관리 및 확장성을 자동으로 처리하는 환경을 원한다.

해결책

Athena를 사용하여 서버리스 방식으로 데이터를 쿼리한다.
S3에 데이터를 저장하여 확장성과 내구성을 확보한다.

특징

무관리 인프라: Athena는 서버리스 서비스로, 인프라 관리가 필요 없다.
자동 확장성: 데이터 양에 관계없이 자동으로 확장되며, 사용량에 따라 비용을 지불한다.
유연성: 서버 리소스를 신경 쓰지 않고 데이터 분석 작업에 집중할 수 있다.

종합 예시: 금융 데이터 레이크 구축

1. 데이터 이전

Redshift의 기존 데이터를 S3로 이전한다. (예: 고객 거래 내역, 과거 분석 데이터 등)
다양한 데이터 소스(로그 파일, 외부 API 데이터 등)를 S3에 저장.

2. 데이터 레이크 구축

S3를 데이터 레이크로 설정하고, 모든 데이터를 중앙 저장소에 통합한다.

3. 분석 환경 구성

Athena를 사용하여 S3의 데이터를 쿼리하고 분석한다.
Redshift는 실시간 데이터 분석에 사용한다.

4. 비용 관리

자주 사용하지 않는 데이터를 S3에 저장하여 Redshift 스토리지 비용을 절감.
Athena의 사용량 기반 요금 체계를 활용하여 필요할 때만 비용 지불.

5. 운영 효율성

Athena를 통해 서버리스 방식으로 데이터를 쿼리하여 인프라 관리 부담을 줄인다.
S3의 확장성과 내구성을 활용하여 데이터 관리의 복잡성을 줄인다.

Data Engineer

이전 포스트

Redshift vs Athena 02

다음 포스트