1. 용어정리
데이터파이프라인: IT 서비스를 사용하는 입장에서는 전혀 눈치채지 못하지만 뒤에서는 생성된 데이터를 무사히 저장소에 저장하기 위해 여러 서버 컴퓨터들이 분주하게 일을 하고 있습니다. 데이터를 생성해서 무사히 저장하기까지 일련의 과정 https://maily.so/grabnews/posts/ecaebe
하둡: 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크 https://ko.m.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_%ED%95%98%EB%91%A1
프레임워크: 컴퓨터 프로그래밍에서, 소프트웨어 프레임워크는 복잡한 문제를 해결하거나 서술하는 데 사용되는 기본 개념 구조이다. 간단히 뼈대, 골조, 프레임워크라고도 한다. 이렇게 매우 폭넓은 정의는 이 용어를 버즈워드로서, 특히 소프트웨어 환경에서 사용할 수 있게 만들어 준다.
맵리듀스: 맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크
데이터웨어하우스: 데이터 웨어하우스란 사용자의 의사 결정에 도움을 주기 위하여 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
스파크잡: 각 스파크 잡은 하나의 액션에 해당되며, 각 액션은 스파크 애플리케이션의 드라이버 프로그램에서 호출
https://jjaesang.github.io/high-performance-spark/2019/03/12/spark-high-performance-spark-job.html
asyn형태: 클라이언트에서 요청을 보내면 서버는 처리하여 응답을 함. 이 와중에 클라이언트는 멈추는게 아니라 다른 작업을 처리하여 효율적으로 처리할 수 있다는 장점
https://velog.io/@josworks27/%EC%9E%90%EB%B0%94%EC%8A%A4%ED%81%AC%EB%A6%BD%ED%8A%B8%EB%B9%84%EB%8F%99%EA%B8%B0Async%EC%97%90-%EB%8C%80%ED%95%B4
helm chart: Kubernetes에서 리소스를 만들기 위한 템플릿화 된 yaml 형식의 파일
https://tech.osci.kr/2019/11/23/86027123/
2. 관련 실습 조사
구글 클라우드 실시간 시장 데이터를 위한 서버리스 파이프라인 만들기
https://cloudblog.withgoogle.com/ko/topics/financial-services/building-real-time-data-pipelines-for-capital-markets-firms/amp/
MS Azure데이터 분석 파이프라인 운영
https://docs.microsoft.com/ko-kr/azure/hdinsight/hdinsight-operationalize-data-pipeline
AWS 데이터파이프라인
https://twowinsh87.github.io/data/2018/09/22/data-fcaws-1/
네이버클라우드 플랫폼으로 구축하는 CI CD
https://youtu.be/y2gcJh4rcbM
메가존 클라우드[실습] Amazon EventBridge를 사용해 애플리케이션 파이프라인 분석하기
https://www.megazone.com/techblog_20200310_application-analytics-pipeline-with-amazon-eventbridge/