대규모 조직인 기업에서 데이터는 클라우드와 온프레미스 환경 모두에서 파편화되고 분산화되는 경우가 많다.
데이터 레이크는 다양한 데이터 원천에서 유입된 방대한 양의 구조화 비구조화 데이터를 수집 및 저장하는 중앙화 데이터 베이스 라 할 수 있음
데이터 레이크에 데이터를 저장할때 데이터 구조화 정련 복제 등 작업을 할 필요가 없음
AWS Lake Formation은 AWS 또는 온프레미스 어디에 있는 데이터라도 상관없이 수집 분석할 수 있는 데이터 레이크 서비서로서 또다른 서비스인 AWS Glue를 이용해 ETL 작업 즉 데이터 추출 변환 로딩 작업을 수행.
AWS Glue 는 Aparche Spark 빅데이터 프레임 워크 기반의 서비스 이며, ELT 작업은 물론 대규모 데이터 세트에 대한 쿼리 작업에도 활용.
데이터 유입 작업은 다양한 데이터 원천으로 부터 여러분의 데이터 레이크로 데이터를 전송 및 수집하는 절차
AWS Glue 및 AWS Lake Formation은 추후 데이터 관련 작업을 좀더 쉽게 처리할 수 있도록 데이터에 대한 라벨링 작업을 자동 처리할수 있음
데이터 변환 작업에는 데이터 포맷 설정, 데이터 결합과 중복된 데이터와 변질된 데이터 부적합한 데이터 등의 제거 업무와 같은 데이터 클리닝 작업이 포함됨
원천 데이터 주요 문제중 하나로 서러 다른 원천에서 유입된 데이터는 서로 다른 포맷 속성을 지님
중복성
세가지 포로토코 ㄹ기반의 전송방식을 이용해 S3 , EFS 로 데이터 전송
File Transfer Protocol (FTP)
Secure Shell(SSH) File Transfer Protocol(SFTP)
File Transfer Protocol over SSL (FTPS)
FTP 연결을 위하 ㄴ신분 확인 옵션으로 로컬 기반의 신분 인증 또는 Active Directory 등 서드 파티에서 제공하는 신분 인증방식 사용 할 수 있음
스트리밍 데이터의 수집 처리 저장 전송을 위한 서비스 모음
Kinesis Video Streams
Kinesis Data Strreams
Kinesis Data Firehose
웹캠, 보안용 카메라 , 스마트폰 카메라등 다양한 스트리밍 비디오 데이터를 무한대로 처리 및 분류할 수 있는 실시간 비디오 처리 서비스
프로듀서 컨슈모 모델 사용
스트림 데이터 읽어들이는 애플리케이션 컨슈머
저장 바이너리 데이터 타입
타임 스태프 인덱싱 기법을 사용하는 kinesis Video Streams와 달리 Kinesis Data Streams는 파티션 키 및 시퀀스 번호 기반 인덱싱 기법을 사용
시간 순서가 아닌 데이터 고유 순서에 따라 저장되고 처리
스트리밍 데이터를 수집하고 목적지로 전송하기 전 해당 데이터 변환
데이터 정련 , 다른 포맷으로 변환
Kinesis Data Stream 데이터를 Kinesis Data Firehose로 전송해 최대 7일로 설정된 보유기간을 필요시 까지 늘일 수 있다.
생성시 하나의 목적지 지정
Kinesis Data Firehose는 다른 관리형 AWS 서비스 및 서드 파티 애플리케이션과 긴밀하게 통합
Kinesis Data Streams는 커스텀 애플리케이션에 스트리밍 데이터 전송하는데 적합
| 서비스 | 데이터 변환 | 최대 보유기간 | 데이터관리모델 |
|---|---|---|---|
| Simple Queue Service | 불가 | 14일 | 프로듀서 컨슈머 |
| Kinesis Video Streams | 불가 | 7일 | 프로듀서 컨슈머 |
| Kinesis Data Streams | 불가 | 8일 | 프로듀서 컨슈머 |
| Kinesis Data Firehose | 가능 | 24시간 | 소스-데스티네이션 |