DevCourse TIL Final Project #4 AWS

김태준·2023년 8월 16일
0

Data Enginnering DevCourse

목록 보기
86/93
post-thumbnail

✅ AWS 학습

EC2

  • 사용량이 많아지면 늘려주고 적어지면 줄여주는 방식의 ON/OFF 인스턴스
  • On-demand 방식도 적용되며 reserved로 한정된 EC2 용량 사용도 가능하다.

EBS

  • 저장공간이 생성되며 EC2 인스턴스에 부착되어 사용 (특정 가용영역(AZ)에 생성)

ELB

  • 수많은 서버 흐름을 균형있게 유지하여 bottle neck 방지하는 역할

VPC (Virtual Private Cloud)

  • User가 정의한 논리적인 VM 내 AWS리소스(논리적으로 할당된 가상네트워크공간)를 시작할 수 있다.
  • VPC는 Region내 존재하며 각 AZ영역에 하나의 서브넷이 있고 각 서브넷에는 EC2인스턴스가 존재한다. 또한, VPC리소스와 인터넷 간 통신을 위해 인터넷 게이트웨이가 존재한다.
  • AWS Cloud 내 리소스들을 연결하기 위해 VPC를 이용하여 묶어서 리소스를 쉽게 관리할 수 있다.
  • 서브넷을 통해 VPC를 잘게 쪼개고 서브넷은 하나의 AZ 영역 내에서 존재해야 한다.
  • 각 서브넷에 서로 다른 Route table을 할당하여 여러 서브넷과 연결도 가능하다.
  • 인터넷 게이트웨이와 연결하는 route table을 갖는 서브넷을 public subnet, 갖지 않는 서브넷을 private subnet이라고 한다.

✅ ETL 과정

Extract

  • 데이터 원본(DB, API)에서 S3, RDS, Redshift 등 다양한 데이터 저장소 활용 가능

Transform

  • Glue, Lambda, Spark 등으로 데이터 변환 작업 수행 (데이터 정제, 필터링, 집계, 조인 등)
  • Glue : ETL 자동화 및 관리하는 서비스로 데이터 변환, 스케줄링 처리
  • Lambda : 이벤트 트리거에 의해 실행되는 serverless 컴퓨팅 서비스로 데이터 변환에 사용

Load

  • Redshift, Athena, QuickSight 등 활용해 데이터 저장, 분석 가능
profile
To be a DataScientist

1개의 댓글

comment-user-thumbnail
2023년 8월 16일

정보에 감사드립니다.

답글 달기