자산관리서비스 데이터레이크 구축기 #001

eeeclipse·2020년 6월 4일
0

tw-data-engineering

목록 보기
1/1

이 문서는 자산관리 서비스에서 데이터레이크를 구축한 경험, 그리고 이를 통해 얻은 결과물과 운영방안에 대한 내용을 담고 있습니다.

Background

데이터 수집·유통 기술

주요 연계기술은 ETL(Extract, Translate, Load), EAI(Enterprise Application Integration), ESB(Enterprise Service Bus), API Gateway, iPaas(Integration Platform as a Service) 등

가. ETL

데이터 소스(DB, File 등)에서 데이터를 배치나 비실시간으로 추출하고 조회·분석을 목적으로 적절한 포맷으로 데이터 변환하며 최종대상 매체로 적재하는 도구이다. 대용량 데이터 및 시스템 내부에서 데이터 이동 및 데이터웨어하우스(DW), 운영데이터스토어(ODS), 데이터마 트(DM)에 데이터 적재 시 사용한다

나. EAI

기업 내 상호 연관된 모든 데이터나 애플리케이션을 유기적으로 연동하여 중앙 집중적으로 통합하고 관리환경을 제공하는 미들웨어다. 실시간 동기, 비동기 메시지 전달 방식을 지원하 며, 다양한 DB와 항목 중에서 변경된 내용을 추출 및 전송하고 다른 시스템들의 연계를 위 한 오류처리, 재처리, 장애처리, 모니터링 등의 기능을 제공한다.

다. ESB

SOA(Service Oriented Architecture) 개념을 구현한 기술로서, 연계 통합시 재사용성, 위치 투 명성, 구현 시 유연하고 확장성이 높다. 산업표준을 도입하여 다양한 환경에서 운영되는 애 플리케이션·데이터·플랫폼 등을 통합하고, SW·ICT 자원들을 서비스로 생성, 등록, 조합하 는 기능을 제공한다

라. API Gateway

주요 시스템의 앞에 위치하여 클라이언트 요청에 대해 인증, 권한, 보안관련 서비스 등을 처 리하고, 내부 시스템으로 전달하는 미들웨어 기술이다.

마. iPaaS

Open API를 활용한 내·외부 플랫폼 간 연계, 클라우드와 On-Premise 시스템을 연결하기 위한 미들웨어로, 연계대상 환경과 연계를 위한 빌트인 어댑터 및 각 시스템과 서비스 연계 관리를 위한 API Gateway를 제공한다.

도입배경

  • 원하는 모든 데이터에 대한 액세스

  • 변화에 대한 대응 : 데이터를 이용할 수 있는 속도는 결정을 내릴 수 있는 속도

  • 원하는 장소와 방법에 대한 상호적 통찰력 : 적절한 시점에 적절한 도구로 올바른 형식의 데이터를 가져다드립니다.

  • 부서별 다양한 데이터 요청 응대

  • 요청데이터 활용을 위한 다양한 포맷 지원

  • 데이터 계층화를 통한 데이터 활용성 증대

    솔루션들

  1. 클라우드
    1. Azure by MS
    2. AWS by Amazon
      • 데이터 수집을 위한 Amazon Kinesis Data Firehose
      • 데이터 저장을 위한 Amazon S3
      • 데이터 처리를 위한 AWS Lambda 및 AWS Glue
      • 데이터 마이그레이션을 위한 AWS Data Migration Service(AWS DMS) 및 AWS Glue
      • 오케스트레이션 및 메타데이터 관리를 위한 AWS Glue
      • 쿼리 실행 및 데이터 시각화를 위한 Amazon Athena 및 Amazon QuickSight
    3. Apache Hadoop

Reference

  1. 타다 (TADA) 서비스의 데이터 웨어하우스 : 태초부터 현재까지
  2. 데브시스터즈 데이터 레이크 구축 이야기
profile
mathematician, researcher, Data Scientist ⊗ Engineer ⊗ Architect, DBA

0개의 댓글