# EMR

18개의 포스트
post-thumbnail

[AWS] Amazon EMR과 Apache Ranger의 통합 이해하기 -(1)

📝서론 single tenant 구조가 아닌 multi tenant의 구조로 Amazon EMR을 사용하게 되면서, RBAC (Role-Based Access Control)이 하나의 요구 사항이 되었습니다. (출처 : AWS re:invent 자료) 여러 Use

2023년 4월 23일
·
0개의 댓글
·

AWS 분석

Athena는 표준 SQL을 사용해 S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스로, 실행한 쿼리에 대해서만 비용 지불(서버리스)EMR은 종적 확장 가능 EC2 인스턴스 전반에 걸쳐 대량의 데이터를 쉽고 빠르게 처리할 수 있는 관리형 하둡 프레임워

2023년 1월 6일
·
0개의 댓글
·
post-thumbnail

[aws] EMR basic (1)

빅데이터 이야기...'분산'이라는 사상이 아주 중요하다.저장소를 분산해보자는 개념에서 HDFS가 등장했고, 처리를 분산해보자는 생각에서 Map Reduce가 등장했고, 이외의 것들도 분산처리를 해보자는 개념에서 YARN이 등장했다.빅데이터 이야기에서는 '분산'이 아주

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

Redshift vs EMR vs Athena

지난 포스팅에서 스토리지의 종류중 객체 스토리지, 블록스토리지에 대해서 다루어 보았다. 오늘은 마지막 칼럼형 스토리지 Redshift에 대해서 다루어보고 이와 비교되는 EMR, Athena에 대해서 다루어 보겠다.

2022년 9월 14일
·
0개의 댓글
·

220913

시연용 데이터분석 추천알고리즘 만들기EMR에서 사용할 수 있도록 하기유저 로그인 -> 유저 Custommer_ID와 함께 S3에 로그 생성S3로그가 Lambda_Function InvokeLambda_Function에서 EMR의 Python 코드 실행추천 알고리즘 실행

2022년 9월 13일
·
0개의 댓글
·
post-thumbnail

220911

생성하기조차 매우 어렵다...https://aws.amazon.com/ko/blogs/big-data/migrate-rdbms-or-on-premise-data-to-emr-hive-s3-and-amazon-redshift-using-emr-sqoop/따라 하

2022년 9월 11일
·
0개의 댓글
·
post-thumbnail

220910

#RDS #Cloud9

2022년 9월 10일
·
0개의 댓글
·
post-thumbnail

220908

#EMR #RDS

2022년 9월 8일
·
0개의 댓글
·
post-thumbnail

220907

# EMR 할뻔

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

220906

# EMR

2022년 9월 6일
·
0개의 댓글
·
post-thumbnail

220905

#CodeSeries #Lambda

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

분석 Part

Amazon Athena Amazon OpenSearch Service Amazon EMR AWS Glue Amazon Kinesis, Kinesis Data Streams, Firehose, Analytics Amazon QuickSight

2022년 8월 1일
·
0개의 댓글
·

[Schema Registry UI] EKS

스키마 레지스트리 UI를 EKS환경에서 사용할 수 있도록 구성한다해당 문서에서는 schema registry ui를 SRU 로 명명한다EKS에서 구동하기 위한 docker 이미지가 있어야 한다. 해당 이미지는landoop 이라는 사람? 명칭? 기업?이 제공하고 있는 이

2022년 7월 7일
·
0개의 댓글
·

[Schema Registry] EKS 구성

스키마 레지스트리를 EKS환경에서 사용할 수 있도록 구성한다해당 문서에서는 schema registry를 SR로 명명한다💡 SR에서는 EKS Ingress 설정을 하지 않는다. 해당 이유는 Ingress설정시 지속적인 헬스 체크가 강요되고 SRU를 통해서 내역을 볼수

2022년 7월 7일
·
0개의 댓글
·
post-thumbnail

aws Lambda 및 emr 초기 환경 구축 관련 정리글

AWS Lambda레이어 → AWS Lambda가 실행될 때 Lambda가 내장하고 있는 파이썬 모듈을 제외한 나머지 외부 모듈들은 따로 설치를 해야한다.Lambda는 amazon linux 기반의 리눅스에서 작동하므로 파이썬 모듈들을 amazon linux에 맞게 설

2022년 5월 2일
·
0개의 댓글
·

spark: jdbc parallelism

EMR Zeppelin에서 Spark를 실행해서 jdbc를 통해 데이터베이스(Redshift) 데이터를 병렬로 가지고 오는 방법Spark에서 제공하는 partitionColumn, lowerBound, upperBound, numPartitions 파라미터를 사용해서

2022년 3월 22일
·
0개의 댓글
·
post-thumbnail

비구조화된 데이터 분석

로그데이터 분석, 하둡 활용 AWS에서 제공하는 서비스를 활용하면 온프레미스에서 다루기 어려웠던 분산 처리 기술인 하둡도 손쉽게 사용할 수 있다. 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨

2021년 12월 4일
·
0개의 댓글
·