[데이터 엔지니어링 데브코스 2기] TIL-13주차 [프로젝트]End-to-end 데이터 파이프라인 구성하기

이재호·2024년 1월 8일

AWS S3 GCP TIL snowflake 데브코스 데이터 엔지니어링 프로그래머스

[데이터 엔지니어링 데브코스 2기]

목록 보기

55/70

1. 프로젝트 개요

https://apiportal.koreainvestment.com/apiservice/apiservice-domestic-stock-quotations#L_07802512-4f49-4486-91b4-1050b6f5dc9d 의 주식 정보 데이터에 대해서, 데이터 파이프라인을 구축하는 프로젝트.
사용 기술 : docker, airflow, GCP Compute Engine, Snowflake, AWS S3

2. GCP Compute Engine 설정

GCP에서 Compute Engine -> VM 인스턴스 를 선택한다.
인스턴스 생성 -> 머신 구성에서 E2 선택 -> 머신 유형에서 e2-standard-2 선택 -> 부팅 디스크에서 변경 선택 후, 운영 체제 Ubuntu 선택, 버전은 그대로, 크기는 100GB로 설정. -> 부팅 디스크 설정 후 아래의 액세스 범위에서 "모든 Cloud API에 대한 전체 액세스 허용" 선택 -> 방화벽에서 "HTTP(S) 트래픽 허용" 체크 -> 만들기.

3. 외부에서 ssh로 GCP Compute Engine 연결.

3-1. Windows

PuTTY KEY Generator에서 generate 선택.
창 위에서 마우스 계속 움직여서 키 생성.
키 생성 후, Key Comment에 키에 대한 이름 입력.
상단의 Key 내용 복사.
Save public key 및 Save private key 선택하여 ppk 파일 저장.
GCP에서 Compute Engine -> 설정 -> 메타데이터 선택.
메타데이터 생성 선택 -> SSH 키 -> 항목 추가 선택 후, 복사했던 Key 내용 입력 -> 저장
putty에서 Connection -> SSH -> Auth -> Credentials 선택 후, private key ppk file 업로드.
Session에서 Host Name에 {username}@{GCP 외부 IP 주소} 입력 후, 오픈.

3-2. Mac

https://ruuci.tistory.com/6

4. Snowflake S3 연동

--S3 버킷에서 데이터 가져오기
COPY INTO dev.raw_data.test_data
from 's3://버킷주소/파일이름'
credentials=(AWS_KEY_ID='ABC...HIJ' AWS_SECRET_KEY='123ABC...789XYZ')
FILE_FORMAT = (type = 'CSV' skip_header=1);

이재호

천천히, 그리고 꾸준히.

이전 포스트

[데이터 엔지니어링 데브코스 2기] TIL-12주차 DBT 소개, 데이터 디스커버리, 툴 학습 (2)

다음 포스트

[데이터 엔지니어링 데브코스 2기] TIL-13주차 [프로젝트]End-to-end 데이터 파이프라인 구성하기

[데이터 엔지니어링 데브코스 2기]

1. 프로젝트 개요

2. GCP Compute Engine 설정

3. 외부에서 ssh로 GCP Compute Engine 연결.

3-1. Windows

3-2. Mac

4. Snowflake S3 연동

[데이터 엔지니어링 데브코스 2기] TIL-12주차 DBT 소개, 데이터 디스커버리, 툴 학습 (2)

[데이터 엔지니어링 데브코스 2기] TIL-14주차 빅데이터 처리 시스템, Hadoop, Spark (1)

0개의 댓글