MAC환경에서는 ORACLE VM 이 지원되지 않아 실습이 어렵습니다.
2core 8G 이상의 메모리, 150G 이상의 hdd/ssd 필요
(단, 외장하드 nas 불가)
이 미니 프로젝트는 데이터 분석 30% 엔지니어링 70%로 구성되어 있습니다. 데이터 파이프라인을 구축해보면서 실무에서 데이터 분석하기 전까지 데이터 수집, 정제, 적재가 어떻게 이루어지는지 간략하게 실습 해보실 수 있습니다.
☞ General Architecture of Legacy Data Pipeline (ETL 기준)
배치 데이터: 기간이 정해져 있는 유한한 데이터
배치 (Batch) 처리(= 일괄처리)
: 비교적 긴 주기로, 데이터를 처리하는 것
: 일정 기간(일,월 단위) 또는 한정된 데이터를 한 시점에 순서적으로 처리하는 방식
Raw Data를 수집해서 변형 → DW(Data Warehouse) Schema에 저장 → 이를 기반으로 분석 진행: ETL
Point
회사는 혁신적인 분석, 남이 알아내지 못한 부분을 찾는 날카로운 분석보다는 데이터 분석을 자동화하는 파이프라인을 실시간 또는 매일(배치성으로) 돌릴 때 에러가 잘 안 나고 데이터에 구멍이 나지 않고 배치 파이프라인을 안정적으로 운영하는 능력을 좀 더 중요하게 봅니다!
🡆 일단 데이터를 수집해서 적재하는 게 더 중요하는 판단: ELT
Object Storage와 AWS S3
Object Storage란 객체(Object)라고 하는 비정형 형식으로 데이터를 저장하고 관리하는 기술
• 기존의 파일 시스템이나 블록 스토리지와는 다름
• 계층구조 없이 평면(flat) 구조로 데이터를 저장 → 접근이 쉽고 빠르며 확장성이 높음
• 데이터 조작에 HTTP/HTTPS를 통한 API가 사용됨
클라우드 객체 스토리지 시스템은 데이터를 여러 대의 물리적인 장치에 분산시키지만 사용자는 단일의 가상 스토리지 레포에서 효율적으로 데이터에 액세스 할 수 있음
• 객체는 데이터와 함께 메타데이터를 포함하며 고유한 식별자를 가짐
• 객체는 비디오, 오디오뿐 아니라 모든 데이터를 포괄하는 유형
• 대표적인 object storage 로는 Amazon S3, Azure Blob Storage, Google Cloud Storage 등이 있음
ETL + ELT
Data Lake
보고 싶은 내용에 따라 전략이 달라짐: Phasing 후 DL에 저장
마트 테이블 구축
배치를 하루에 한 번씩 돌린다고 가정했을 때 이벤트 발생에 대한 알림 보내기(슬랙으로)
매매 전략: 상방돌파와 하방돌파
주가가 이동평균선을 상방돌파(위로 돌파)하면 매수 신호로 보고, 하방돌파(아래로 돌파)하면 매도 신호로 봅니다. 이를 통해 시장의 방향성을 예측하고 매매 시점을 결정하게 됩니다.