AWS 분석

전홍준·2023년 1월 6일
0

AWS

목록 보기
8/9

Amazon Athena

Athena는 표준 SQL을 사용해 S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스로, 실행한 쿼리에 대해서만 비용 지불(서버리스)

Amazon EMR

EMR은 종적 확장 가능 EC2 인스턴스 전반에 걸쳐 대량의 데이터를 쉽고 빠르게 처리할 수 있는 관리형 하둡 프레임워크 제공
Apache Spark, HBase, Presto 및 Flink와 같은 분산 프레임워크를 실행하고 S3, DynamoDB와 같은 다른 AWS 데이터 스토어와 상호 작용 가능

Amazon CloudSearch

CloudSearch 는 관리형 서비스로 이를 통해 검색 솔루션 사용 가능

Amazon Kinesis

Amazon Kinesis는 AWS의 스트리밍 데이터를 위한 플랫폼으로 데이터를 손쉽게 로드 및 분석할 수 있는 서비스 제공
다양한 장치에서 발생하는 엄청난 양의 스트리밍 데이터를 지속적으로 수집, 저장, 처리 가능

  • Amazon Kinesis Firehose
    Amazon Kinesis Firehose는 스트리밍 데이터를 AWS에 로드하는 가장 간편한 방법으로 데이터를 캡처 및 변형하여 Amazon Kinesis Analytics, s3, Redshift, Elasticsearch 로 로드하여 실시간에 가까운 분석 가능
    완전관리형 서비스로 처리량에 따라 자동으로 확장되며 데이터 로드 전 배치, 압축 및 암호화를 통해 스토리지 사용량 최소화 및 보안 강화 가능

  • Amazon Kinesis Analytics
    Amazon Kinesis Analytics는 표준 SQL을 통해 실시간으로 스트리밍 데이터를 처리 할 수 있고 다양한 SQL 쿼리를 생성 및 실행 가능

  • Amazon Kinesis Streams
    Amazon Kinesis Streams를 사용하면 특수 요구에 맞게 스트리밍 데이터를 처리 및 분석하는 어플리케이션 구축 가능
    Amazon Kinesis Client Library(KCL)을 통해 Kinesis 어플리케이션을 구축하고 스트리밍 데이터를 사용해 실시간 대시보드, 알림 생성 가능

Amazon Redshift

Amazon Redshift는 페타바이트 규모의 완전 관리형 데이터 웨어하우스로 간편하고 비용 효율적으로 모든 데이터를 분석
컬럼 방식 스토리지, 데이터 압축 및 영역 매핑을 사용하여 높은 쿼리 성능 제공하며 또한 대량 병렬 처리(MPP) 데이터 웨어하우스 아키텍처를 통해 SQL 작업을 병렬 처리
콘솔이나 API 를 통해 손쉽게 노드 나 유형을 변경 할 수 있고 변경이 완료되기 전까지 읽기 전용 모드로 계속 쿼리 가능

AWS Data Pipeline

AWS Data Pipeline은 여러 AWS 컴퓨팅 및 스토리지, 온프로미스 데이터 소스간 지정된 간격으로 데이터를 처리하고 이동할 수 있도록 지원하는 웹 서비스로 데이터가 저장된 위치에서 정기적으로 액세스 하여 변형 및 처리 후 결과를 S3,RDS,DynamoDB,EMR 등의 서비스로 전송 가능
이를 통해 내결함성이 있고, 반복 가능하며, 가용성이 높고, 복잡한 데이터처리 워크로드 생성 가능

AWS Glue

AWS Glue는 데이터 스토어 사이에 데이터를 이동시킬 수 있는 완전관리형 ETL 서비스로 데이터 검색, 변환, 매칭 및 일정 조정등을 단순화 및 자동화 지원
또한 S3, RDS, Redshift 등과 통합되어있어 JDBC 와 호환되는 모든 데이터 스토어에 연결 가능하며 데이터 원본을 자동으로 크롤링하여 데이터 형식 식별 및 스키마, 변환 제안을 통해 별도 코딩 필요 없음

profile
System Engineer

0개의 댓글