[AWS] AWS와 EC2 인스턴스 소개

Hyunjun Kim·2025년 3월 16일

실습 - (AWS 환경)

목록 보기
2/61

1. 왜 AWS인가?

요즘 기업들도 IT인프라를 따로 빌딩 지어서 서버 만들고 유지보수할 인력을 관리하고 서버 수급하고 샀다 고장나면 고치고 이런 식으로 하기 어렵기 때문에 실제 투입 비용대비 효율뿐 아니라 작업 진행 속도 등 여러 비용이 많이 들기 떄문에 요즘은 원래 IDC라고 하는 서버 가지고 있던 회사들도 오히려 포기하고 클라우드로 넘어갈 만큼 클라우드를 통한 생산성이 높아졌다.

  • 데이터 엔지니어링에서 분산 시스템을 많이 쓸 건데, 분산시스템을 쓰려면 여러 대의 컴퓨터가 필요하다. 최소로 3대, 많이 쓰는 경우 10대 20대 까지도 쓸 수 있는데, 실습용으로 컴퓨터 살 순 없으니. 클라우드에서 원하는 타입의 컴퓨터 스펙에 맞게 그때 그 때 쓰고 반납해서 비용 최소한으로 쓰고, 실습해볼수 있다.

그 중 왜 AWS냐?
1. AWS가 전 세계적으로 공개형 클라우드 서비스를 한 지 가장 오래되었기도 했다 > 그 만큼 레퍼런스 많고 한국어로 번역된 것도 가장 많다. 국내 퍼블릭 클라우드 시장 점유율이 가장 높기도 하다. 그래서 AWS로 진행한다.

글로벌하게 보면 AWS, MS가 각축을 벌이고 있고, 구글 클라우드도 쓰긴 하는데 점유율이 높지는 않고 조금씩 점유율이 퍼지고 있다. 그 외에 작은 더 많은 회사도 있다.

클라우드 서비스란

  • 클라우드 서비스는 내가 컴퓨터, 인프라를 소유하지 않고도 IT 인프라를 필요한 만큼 비용을 내고 사용하고, 필요없을 때는 언제든지 반납(종료)할 수 있다. 물리적인 인프라 없이, 소프트 웨어 만으로도 IT인프라를 사용할 수 있고, 비용도 사용한만큼 지불하기 때문에 생산성을 크 게 향상 시킨다.

  • AWS는 한국어로 된 레퍼런스가 가장 많고, 국내 시장점유율이 가장 높은 클라우드 서비스 프로바이더이기 때문에 AWs로 진행한다.

  • 단, 본인이 실습할 수 있는 다른 서버 인프라가 있던가, 다른 클라우드 서비스가 더욱 편하다면 그곳에서 진행해도 무방하다.

  • 단, Hadoop은 AWS EMR의 세팅을 기초로 진행하기 때문에 차이가 있을 수 있다.

대신 하둡같은 경우는 직접 PM에 모두 설치해서 운영하는 것을 배우기에는 무리가 있다. > 그래서 AWS EMR을 쓴다.

왜 EC2(엘라스틱 클라우드 컴퓨팅) 인가?

  • EC2는 AWS내에서 컴퓨팅 리소스를 유연하게 사용할 수 있는 서비스이다.
  • 데이터 엔지니어링을 하기위한 상용 서비스나 제품들이 많다. 하지만, 해당 제품들도 모두 어딘가의 서버 위에서 돌아간다.
  • 초격차 데이터엔지니어링 코스에서는 가장 기본 서버만으로 여러 데이터 엔지니어링 도구를 직접 설치하고 운영하면서 기술을 배운다. 이를 통해서 어떤 환경에서도 엔지니어링을 잘 할 수 있기 때문이다.
  • 처음부터 상용 서비스를 이용하면서 배우면 엔지니어링 역량과 범위가 좁아진다.

다른 엔지니어들이 서비스 형태로 돌아갈 수 있도록 다른 일반 서버들 위에서 돌아갈 수 있도록 세팅을 해준 것이다. 가장 기본 서버만으로도 컴퓨터만 있다면 여러 가지 데이터 엔지니어링 도구를 직접 설치하고 운영하면서 기술을 배운다.

profile
Data Analytics Engineer 가 되

0개의 댓글