데이터 유입 변환, 그리고 분석

임종혁·2025년 1월 4일

데이터 유입 변환 그리고 분석


AWS Lake Formation


  • 대규모 조직인 기업에서 데이터는 클라우드와 온프레미스 환경 모두에서 파편화되고 분산화되는 경우가 많다.

    • 파편화는 데이터 분석, 시각화 상관 관계 분석 업무를 어렵게 만든다
    • 데이터 파편화를 막는 좋은 방법중 하나가 바로 데이터 레이크
  • 데이터 레이크는 다양한 데이터 원천에서 유입된 방대한 양의 구조화 비구조화 데이터를 수집 및 저장하는 중앙화 데이터 베이스 라 할 수 있음

  • 데이터 레이크에 데이터를 저장할때 데이터 구조화 정련 복제 등 작업을 할 필요가 없음

    • 있는 그대로 검색 분석 시각화 상관 관계 분석 등의 작업을 수행할 수 있다는 장점.
  • AWS Lake Formation은 AWS 또는 온프레미스 어디에 있는 데이터라도 상관없이 수집 분석할 수 있는 데이터 레이크 서비서로서 또다른 서비스인 AWS Glue를 이용해 ETL 작업 즉 데이터 추출 변환 로딩 작업을 수행.

  • AWS Glue 는 Aparche Spark 빅데이터 프레임 워크 기반의 서비스 이며, ELT 작업은 물론 대규모 데이터 세트에 대한 쿼리 작업에도 활용.

데이터 유입


  • 데이터 유입 작업은 다양한 데이터 원천으로 부터 여러분의 데이터 레이크로 데이터를 전송 및 수집하는 절차

    • AWS Glue, AWS Lake Formation 등의 서비스를 이용해 S3 , RDS, AWS CloudFront, AWS CloudTrail, AWS Billing 그리고 AWS Elastic Load Balancing 등 다양한 위치에서 데이터를 임포트 할 수 있음.
    • 특히 JDBC 커넥터를 지원하는 모든 온프레미스 데이터 베이스로 부터도 데이터를 임포트 할수 있음.
  • AWS Glue 및 AWS Lake Formation은 추후 데이터 관련 작업을 좀더 쉽게 처리할 수 있도록 데이터에 대한 라벨링 작업을 자동 처리할수 있음

데이터 변환


  • 데이터 변환 작업에는 데이터 포맷 설정, 데이터 결합과 중복된 데이터와 변질된 데이터 부적합한 데이터 등의 제거 업무와 같은 데이터 클리닝 작업이 포함됨

  • 원천 데이터 주요 문제중 하나로 서러 다른 원천에서 유입된 데이터는 서로 다른 포맷 속성을 지님

    • 타임스탬프 utc 혹은 로컬 타임존
  • 중복성

    • 중복데이터 제거

데이터 분석


  • 데이터에 포함된 통찰 정보를 파악
    • 데이터 조회 , 시갂화 통계적 분석 업무
    • 데이터 조회 시점 데이터 일정한 스카마 또는 구조 적용
    • Athena, QuickSight , RedShiftSpectrum, Amazon EMR, AWS Glue

AWS Transfer Family


  • 세가지 포로토코 ㄹ기반의 전송방식을 이용해 S3 , EFS 로 데이터 전송

  • File Transfer Protocol (FTP)

  • Secure Shell(SSH) File Transfer Protocol(SFTP)

  • File Transfer Protocol over SSL (FTPS)

  • FTP 연결을 위하 ㄴ신분 확인 옵션으로 로컬 기반의 신분 인증 또는 Active Directory 등 서드 파티에서 제공하는 신분 인증방식 사용 할 수 있음

Kinesis


  • 스트리밍 데이터의 수집 처리 저장 전송을 위한 서비스 모음

    • 수천개의 소스로부터 초당 수 기가 바이트 수준으로 유입되는 오디오 비디오 애플리케이션 로그, 원격 측정 데이터등 다양한 스트리밍 데이터를 처리 가능
  • Kinesis Video Streams

  • Kinesis Data Strreams

  • Kinesis Data Firehose

Kinesis Video Strreams


  • 웹캠, 보안용 카메라 , 스마트폰 카메라등 다양한 스트리밍 비디오 데이터를 무한대로 처리 및 분류할 수 있는 실시간 비디오 처리 서비스

    • 이미지 인식등 컴퓨터 비전 애플리케이션
    • 스트리밍 비디오 애플리케이션
    • 양방향 비디오 회의 애플리케이션
  • 프로듀서 컨슈모 모델 사용

    • 데이터를 유입시크는 소스를 프로듀서
    • 비디오 스트림, 오디오, 자막 , gps좌표등 비디오 스트림 과 관계된 데이터도 함께 전송
    • 개별 비디오 스트림 저장 시간은 기본 24시간 최대 저장 7일
  • 스트림 데이터 읽어들이는 애플리케이션 컨슈머

    • 비디오 재생 하기 위해 kinesis로 부터 데이터 인출

Kinesis Data Streams


  • 프로듀서가 생성한 데이터의 수집 처리 저장을 위한 스트리밍 데이터 파이프라인 서비스
  • MapReduce와 같은 빅데이터 분석 애플리케이션이 컨슈머가 될수 있음

저장 바이너리 데이터 타입

  • 애플리케이션 로그
  • 주식 거래 데이터
  • 소셜 미디어 피드
  • 금융 거래 데이터
  • 위치 추적 데이터

타임 스태프 인덱싱 기법을 사용하는 kinesis Video Streams와 달리 Kinesis Data Streams는 파티션 키 및 시퀀스 번호 기반 인덱싱 기법을 사용

시간 순서가 아닌 데이터 고유 순서에 따라 저장되고 처리

  • 다수 컨슈머가 객체 하나의 스트림을 동시에 읽는것도 가능
    • 팬아웃
  • 최대 스트림 처리 용량은 샤드 값에 따라 달라짐

Kinesis Data Firehose


  • 스트리밍 데이터를 수집하고 목적지로 전송하기 전 해당 데이터 변환

  • 데이터 정련 , 다른 포맷으로 변환

  • Kinesis Data Stream 데이터를 Kinesis Data Firehose로 전송해 최대 7일로 설정된 보유기간을 필요시 까지 늘일 수 있다.

  • 생성시 하나의 목적지 지정

  • Kinesis Data Firehose는 다른 관리형 AWS 서비스 및 서드 파티 애플리케이션과 긴밀하게 통합

    • Redshift S3 Splunk 등 스트리밍 데이터를 전송하는데 적합
  • Kinesis Data Streams는 커스텀 애플리케이션에 스트리밍 데이터 전송하는데 적합

서비스데이터 변환최대 보유기간데이터관리모델
Simple Queue Service불가14일프로듀서 컨슈머
Kinesis Video Streams불가7일프로듀서 컨슈머
Kinesis Data Streams불가8일프로듀서 컨슈머
Kinesis Data Firehose가능24시간소스-데스티네이션

0개의 댓글