AWS Analytics 컨퍼런스

미숙한 초보 코딩.Js·2019년 10월 23일
1

Conference

목록 보기
1/6
post-thumbnail

부산 센텀의 AWS Analytics서비스에 대해 컨퍼런스 내용

데이터 분석

데이터 중심의 테크 기업의 성장!!

  • Oltp, erp, crm, lob, 란 ?
  • 전통적인것 -> 관계형 데이터,
  • 전통적의 어려움 -> 데이터가 너무 많은 장소에 분산, 한곳에서 볼려고,
  • 다양한 소스에서 어떻게 데이터를 신속 수집, 효율적관리,
  • 생성되는 데이터 점점 증가, 저장 공간 확장을 어떻게?

모던 데이터 플랫폼이 가져야할 조건

  • 모든 소스의 데이터를 한곳에 저장하고 분석
  • 사전에 정의된 방식을 강제하지 않고 데이터 신속수집
  • 데이터 쓰기가 아닌 읽기에 스키마를 적용하여 ad-hoc 분석이 가능
  • 저장 공간과 분석을 위한 컴퓨팅 리소스를 분리, 각 구성 요소를 별도로 확장

Aws Data Lake

  • 중앙 집중식 클라우드 스토리지 s3 를 기반으로 다양한 스키마와 구조의 데이터를 대상으로 수집,저장,변환분석 파이프라인을 구축하고 single view로 접근하는 차세대 데이터 플랫폼

데이터 레이크 해택

  • 정형 데이터및 버정형 데이터
  • PBs ~ EBs 스케일
  • 분석과 머신러닝을 위한 다양한 도구
  • 데이터의 이동 없이 분석 작업수행
  • 저비용 스토리지 및 분석을 위한 설계

모던 데이터 플랫폼의 스토리지

  • 수집

Direct Connect(안전한 망),

Snowball (페타바이트 스케일로 on-premise-aws 클라우드간의 빠르고 안정적인 데이터 이동 수단 제공 )

Kinesis(실시간 비디오 및 데이터 스트림을 손쉽게 수집, 처리 및 분석)

  • 개발자(정렬,리플레이,실시간처리를 위한 수집 및 데이터 스트리밍)

  • 방대한 스트리밍 데이터를 실시간 로드

  • 데이터 사이언티스티(실시간 표준 sql 쿼리를 이용하여 데이터 스트림 분석)

DataSync

데이터센터와 클라우드 간의데이터전송을 자동화 하고 가속화 시켜주는 온라인 데이터 전송 서비스

저장 (S3)

Glue (데이터 카탈로그)

  • 크롤러는 자동적으로 데이터 스키마를 찾아서 저장
  • 데이터의 검색과 ETL작업가능
  • 사용자 정의 코드 자동 생성
  • 개방형 표준 기반으로 서버리스하면서 유연함
  • (서버리스)
  • 완전 관리형 서버리스 서비스
  • 테이블 스키마 정보와 컬럼 레벨 통계정보를 포함

확장기능

  • 검색 - 메타데이터를 통한 데이터 검색
  • 연결 -JDBC URLs, credentials
  • 분류자 - 스키마 인식과 통합
  • 버전관리 - 스키마변경 탐지 및 버전 관리

ETL 서비스란 ?

서버리스 데이터 변환작업, apache Spark 기반

처리및 분석(EMR, Redshift,athena)

EMR

데이터 저장과 처리가 분리된 관리형 Hadoop으로, 사용자의 작업을 절감해줌

Redshift

  • Athena -대화식 분석

  • s3 데이터를 분석하는 대화식 쿼리 서비스 (서버리스)

  • 즉각적인 쿼리, 쿼리당 비용, 개방

  • 서버리스

  • 쿼리를 위해 데이타 로딩 /ETL불필요, S3에서 직접 쿼리 실행

  • 스캔된 데이터 만큼 과금

Kinesis Data Analytics - 실시간 데이터 분석

빅데이터 스트리밍을 초단위로 처리

Kinesis Streams 개념

  • 전송 스트림: 샤드 / 프로비져닝/ 파티션키 있음
  • 생산자, 소비자를 구성하여 일긱,쓰기작업
  • 추가 처리 또는 분석을 위한 다른aws 서비스와 연계(EMR,REDSHIFT,DYNAMICDB)

데이터 흐름

  • 존송 순서 보장/ 병렬 소비가능

  • 샤드 ( 데이터 전송 단위)

  • 기본적 24시간 저장, 최대 7일 데이터 보존 기간 연장 기능,

Kinesis Firehose 개념

  • 전송 스트림 : 샤드/프로비져닝/파티션키 없음
  • 레코드 : 각 데이터 Blob 는 절차에 따라 전송 스트림 전송

Elasticesearch Service

안전 관리형, 확장 가능하고 안전한

Elasticesearch + Kibana


소비

QuickSight (SPICE를 이용해 UI가져옴)

분석, 협업, 대시보드

데이터와 분석결과 대시보드로 공유가능

SPICE

기계어 코드 생성으로 컴파일 되는 쿼리

풍부한 계산


  • 가장 현실적인 시점 - 서버리스 서비스 활용

Redshift

1/10 비용으로 빠르고, 손쉬운 확장을 지원하는 완전 관리형 DW

데이터 저장소 차이

  • OLTP, OLAP, Data Lake

기업 사례

  • 맥도날드
  • DOW JONES (분석 플랫폼 로드맵)

후기

처음으로 AWS 컨퍼런스에 참여하였는데 IOT 에 관하여 배웠습니다.
EC2 에서 Firehose ( 데이터를 가져오는데 카테고리에 담거나 정렬해줌 ) 를 이용하여 S3 버킷에 담은 다음에 Glue 가 S3에 담긴 데이터를 크롤링 해와서 AWS Athena를 이용해 테이블을 확인하여 그것을 통해 AWS QuickSight를 이용해서 시각화 데이터를 보여주는 Flow로 진행되었습니다.

처음듣는 컨퍼런스이고 9시부터 5시까지하는 긴 시간 동안 AWS의 새로운 것을 배우고 그것을 통해 발전해 나갈수 있다는 생각에 좋은 시간이였습니다.

profile
힘들땐 블로그 하나더 적자!!![ Suyang ]

0개의 댓글