AWS RDS란 관계형 데이터베이스를 간편하게 클라우드에서 설정, 운영, 확장이 가능하도록 지원하는 웹 서비스이다.
RDS는 MySQL이나 오라클 같은 데이터베이스의 설치, 모니터링, 백업, 알람 등 관리를 대신해주며, 하드웨어 프로비저닝, 데이터베이스 설정, 패치 및 백업과 같이 잦은 운영 작업을 자동화하여 비용 효율적이고 크기 조정 가능한 DB 서비스를 제공한다.
따라서 RDS를 통해 개발자는 DB 인프라를 구성하는데 힘을 들이지 않고, 개발이라는 본질적인 작업에 집중할 수 있게되는 장점이 있다.
물론 EC2 자체가 컴퓨터니까 EC2 인스턴스에 직접 데이터베이스를 설치해서 사용해도 된다.
하지만 AWS RDS는 EC2에 RDB(관계형 데이터베이스)를 직접 구축하여운영할 때보다 더 많은 부분을 자동으로 관리할 수 있어 편리하기 때문에 많이 애용된다.
RDS의 데이터베이스의 제공 방식은 EC2와 비슷하다.
EC2 인스턴스를 생성해서 컴퓨팅을 사용하듯이, RDS 인스턴스를 생성해서 DB를 사용하는 원리이다.
하지만 EC2같이 유저가 시스템에 직접 로그인은 불가능하다.
그래서 RDS 인스턴스의 OS패치, 관리 등은 AWS가 전담 한다.
또한 RDS는 데이터베이스 모니터링 기능을 지원해주는데, DB에서 발생하는 여러 로그 (Error Log, General Log 등)를 CloudWatch와 연동하여 확인도 가능하다.
RDS는 기본적으로 VPC 안에서 동작하며, 기본적으로 public IP를 부여하지 않아 외부에서 접근 불가능하다.
다만, 설정에 따라 public으로 오픈 가능하며 대신 로드밸런서 같이 DNS로만 접근이 가능하다.
VPC 내에서 동작하는 서비스이니 당연히 서브넷과 보안그룹 지정도 필요하다.
EC2 인스턴스를 생성할때 EC2 타입과 EBS 타입을 고르듯이,
RDS 인스턴스를 생성할때도 인스턴스 타입을 지정해주어야 하며, 스토리지는 EBS를 그대로 활용하기 때문에 EBS 타입의 선택도 필요하다.
그리고 RDS는 유동적으로 데이터 저장소 용량을 증설하는게 아닌, 생성시 EBS의 용량을 지정해서 생성한다. (추후에 용량 증설 가능)
cf) AWS 데이터베이스 서비스인 Amazon Aurora는 용량지정 X, 사용한만큼만 비용 지불
RDS의 가장 큰 특징은 파라미터 그룹(Paramater Group) 시스템인데, 이는 DB의 설정값들을 모아 그룹화한 개념이다.
이 DB 설정들을 모은 그룹을 각 DB 인스턴스에 적용시켜 DB의 설정값을 적용하는 시스템인이다.
왜냐하면 위에서 말했듯이 직접 RDS 인스턴스 수정이 불가능 하기 때문에 이런 우회적인 방법으로 설정값을 세팅하는 원리이다.
Tip
AWS 프리티어로는 RDS를 12개월동안 단일 AZ, db.t2.micro 인스턴스를 750시간 무료 사용할 수 있다.
RDS에서는 Amazon Aurora, PostgreSQL, MySQL, MariaDB, Oracle, MS SQLServer 총 6개의 데이터베이스 엔진 중에서 원하는 DBMS를 선택할 수 있다.
또한 AWS Databae Migration Services를 사용하여 기존 데이터베이스를 Amazon RDS로 손쉽게 마이그레이션 또는 복제 할 수 있다.
Info
Amazon Aurora는 MySQL 및 PostgreSQL호환 관계형 데이터베이스로, 오픈 소스 데이터베이스의 간편 성과 비용 효율성을 결합한 것이다. Amazon Aurora의 속도는 표준 MySQL 데이터베이스보다 5배, PostgreSQL 데이터베이스보다 3배 빠르다고 한다. 또한 상용 데이터베이스의 보안, 가용성 및 안전성을 1/10의 비용으로 제공하기도 한다.
PostgreSQL은 오픈 소스 관계형 데이터베이스 중 기능도 많고 성능도 좋은 거의 원탑의 데이터베이스이다.
MySQL은 세계적으로 가장 많이 사용되는 오픈 소스 관계형 데이터베이스다. Amazon RDS를 통해 비용 효율적이고 크기 조정이 가능한 MySQL 서버를 몇 분 안에 생성할 수 니다. 백업, 소프트웨어 패치, 모니터링, 확장 & 축소, 복제 같은 시간이 걸리는 작업은 모두 관리되므로 사용자는 개발에만 집중할 수 있다.
MariaDB는 MySQL을 개발한 개발자가 만든 오픈 소스 관계형 데이터베이스 이다. MySQL 업그레이드 판 이라고 봐도 된다. MySQL과 동일하게 Amazon RDS를 통해 효율적인 MariaDB 데이터베이스를 생성할 수 있고, 모든 시간 소모적 작업을 대신 처리해 준다.
Oracle는 오라클사의 유료 관계형 데이터베이스로서, RDS를 사용해 클라우드에서 손쉽게 배포, 설정, 운영 할 수 있는 완전 관리형 상용 데이터베이스이다. 다만 유료 데이터베이스라 라이선스 비용이 든다.
SQL Server(MSSQL)는 Microsoft에서 개발한 관계형 데이터베이스 관리 시스템으로 Amazon RDS를 통해 손쉽게 배포, 운영, 확장이 가능하다.
1. 관리 부담 감소
2. 확장성
4. 가용성 및 내구성
5. 보안
6. 관리 효율성
7. 비용 효율성
자동 백업(Automated Backups) 줄여서 AB는 매일마다 스냅샷과 트랜잭션 로그를 참고하여 자동으로 백업을 해준다.
RDS에서는 디폴트로 AB 기능이 설정되어 있다.
그리고 AB를 통해 데이터베이스를 Retention Period(1~35일) 안의 과거 특정 시간으로 되돌아갈 수도 있다.
단, 롤백 동작은 과거 상태로 그대로 돌아가는게 아닌, 다른 DB 인스턴스를 새로 생성해서 스냅샷을 적용 시키는 형식임을 유의하자.
RDB 백업 정보는 S3에 저장되며, AB동안 약간의 I/O suspension(딜레이)이 존재할 수 있다.
그나마 Multi-az로 하면 Standby를 통해 백업을 수행하기 때문에 딜레이가 덜하다.
AB(자동 백업)이 자동으로 스냅샷을 떠서 백업하는 것이라면, 수동 백업은 유저 혹은 다른 프로세스로부터 요청에 따라 만들어지는 DB 스냅샷이다.
즉, EC2 스냅샷을 뜨듯이 사용자에 의해 수동적으로 진행되는 백업이다.
만약 원본 RDS를 삭제한다고 하더라도, 스냅샷은 S3 버킷에 그대로 존재한다. 따라서 스냅샷만으로 RDS 인스턴스를 복원시킬 수 있다.
반대로 AB 백업 기능은 인스턴스를 삭제할 때 스냅샷도 모두 없어진다는 특징이 있다.
이 역시 스냅샷의 복구는 항상 새로운 DB Instance를 생성 하여 수행되며,
만약 데이터베이스를 복구해야 한다면, 새로운 DB를 만들고 기존 DB의 연결을 끊고 새로 만든 DB에 연결해주는 작업이 필요하다.
원본 RDS 인스턴스를 가지고 새로운 DB를 복원시 새로운 인스턴스와 Endpoint가 생성된다.
원본 DNS는 앞에 original인 반면, 복원된 것은 앞에 restored가 붙게된다.
1. 전통적인 유저/패스워드 방식
2. IAM DB 인증
3. Kerberos 인증
요금 발생 유형 | 요금 정책 |
---|---|
온디맨드 | 인스턴스에서 실행한 컴퓨팅 파워에 대해서 시간당 요금 지불 |
예약 | 온디맨드보다 저렴. 1년~3년 약정 기간에 DB 인스턴스 예약 |
DB Storage | 범용(SSD) 스토리지 : 프로비저닝한 스토리지에 대해 요금 청구 (I/O는 요금 청구 없음)프로비저닝 IOPS(SSD) 스토리지 : DB에 필요한 I/O 용량을 지정하거나 프로비저닝 가능.프로비저닝한 처리량 및 스토리지에 대해 비용 청구(I/O 요금청구 없음) |
백업 스토리지 | 리전별로 할당. 리전 전체 데이터베이스 스토리지의 최대 100프로에 해당하는 백업 스토리지는 추가비용 없음DB 인스턴스 종료 후에 백업스토리지에 월별 GiB당 요금청구추가 백업 스토리지에는 월발 GiB당 요금 청구 |
스냅샷 내보내기 | 스냅샷 용량에 따라 요금 지불. 동일한 스냅샷에서 추가로 데이터 내보내는건 요금 없음.RDS내에서 데이터 내보내거나 S3로 내보냄 |
데이터 전송 | 동일한 가용 영역에서 Amazon RDS와 Amazon EC2 인스턴스 간에 전송된 데이터는 무료같은 리전의 서로 다른 가용 영역에서 Amazon EC2 인스턴스와 Amazon RDS DB 인스턴스 간에 전송된 데이터의 경우,양쪽 모두에 Amazon EC2 리전 데이터 전송 요금이 청구 |
AWS 데이터베이스 서비스는 RDS 이외에 다양한 데이터베이스 서비스를 제공한다
데이터베이스는 관리가 중요하다.
만일 어느 데이터베이스가 장애가 나면 재빨리 다른 데이터베이스로 옮겨 서비스를 지속하는 등 고가용적인 관리가 필요하다.
또한 트래픽이 몰려 데이터베이스 서버가 터지는걸 대비해 분산 기법도 이용해야 한다.
AWS RDS는 데이터베이스를 보다 효율적으로 관리할수 있게 하는 인프라 아키텍쳐 방법 3가지를 제공한다.
RDS 멀티 AZ는 위 사진에서 보듯이, 두개 이상의 AZ에 걸쳐 데이터베이스를 구축하고 원본과 다른 DB(Standby)를 자동으로 동기화(Sync)하는 구조이다.
Tip
Standby 란?
돌발 사태로 예정된 기능이 이뤄지지 못할 경우를 대비한 '임시'를 뜻함
Multi AZ는 AWS에 의해서 자동으로 관리가 이루어 진다.
만약 RDS DB를 만들고, DB에 특정 레코드를 insert 할 시, 다른 AZ(Availability Zone)에 똑같은 복제본이 만들어지게 된다.
그리고 유사시 우리가 현재 사용하고 있는 메인 DB에 문제가 생길 경우 RDS는 이를 즉시 발견하고 다른 AZ에 만들어진 복제본을 원본 DB를 승격시켜 그대로 사용하게 된다. 이를 Disaster Recovery(재해 복구)라고 부른다.
일반적인 경우 DNS 주소로 RDS Primary 인스턴스에 접속하여 사용한다.
그런데 아래 사진에서 보듯이 기본적으로 Standby DB는 접근 불가능하다. (DNS가 부여되지 않음)
장애 복구용 백업 인스턴스 이기 때문에 Stanby DB는 숨겨져 있기 때문이다.
그러다 만약에 RDS Primary에 장애가 발생하면, 다음 과 같이 장애 복구가 이루어 진다.
멀티 AZ 구조의 단점은 예비용 인스턴스가 하나 더 돌고 있다는 것이기 때문에 비용이 두배가 든다는 점이다.
그리고 예비용 만들어진 인스턴스는 활용을 안하고 그저 만일을 대비해서 그저 대기 상태로 된다.
따라서 멀티 AZ 구조는 퍼포먼스의 상승 효과가 아닌 안정성을 위한 서비스 이다.
그래서 Multi AZ는 복제본을 만든다고 해서 성능이 더 좋아지는 건 아니지만, 만약 성능개선이 주목적이라면, 이 다음에 배울 Read Replicas를 이용해야 한다.
Read Replica(읽기 전용 복제본)은 위 그림에서 볼수 있듯이, RDS Primary를 복제해서 DB 쓰기는 RDS Primary에서 처리하고, DB 읽기는 복제한 복제본에서 처리하는 구조이다.
그래서 읽기 전용 복제본이라는 이름이다.
이렇게 쓰기와 읽기를 나눠놓은 이유는, 만일 서비스에서 DB 읽기 위주의 작업이 많은 경우 Read Replica를 여러 개 만들어서 부하를 분산할 수 있기 때문이다.
즉, 쓰기 작업은 마스터 DB 인스턴스에 하고 읽기 작업은 Read Replica에 할당하면 마스터 DB 인스턴스의 부하를 줄일 수 있는 원리이다.
Read Replica의 복제본들은 같은 AZ에 있을수도있고 다른 AZ에 있을수도 있고 심지어 다른 리전에 존재할 수도 있다.
그리고 Read Replica는 멀티 AZ와는 달리 각각의 복제본 인스턴스에 DNS가 각각 부여되서 접근이 가능하다. (당연히 읽기 동작을 하려면 접근해야 되기 때문에)
이렇게 데이터베이스를 복제하여 쓰기와 읽기를 분별하여 트래픽을 분산하는 기술을 데이터베이스 Replication 이라고 한다.
흔히 서버를 이중화 하는 것처럼 데이터베이스를 이중화 한다고 이해하면 된다.
Replication이란 백업과 성능 향상을 위해서 데이터베이스를 여러 대의 서버에 복제하는 행위를 뜻한다.
원본 데이터가 위치하는 서버를 마스터라고 하고, 그 원본을 복제한 서버를 슬레이브라고 칭한다.
데이터베이스의 작업은 읽기와 쓰기로 구분할 수 있다.
SQL로 말하면 읽기는 SELECT 구문이고, 쓰기는 INSERT, UPDATE, DELETE 트랜잭션이 된다.
쓰기 작업같은 경우 저장된 데이터가 변경되기 때문에, 만일 복제된 서버에 쓰기 작업을 맡기게 된다면 복제된 서버들 간에 동일한 형태를 유지하는데 많은 비용이 든다.
그래서 보통 한대의 서버에만 쓰기 작업을 하고, 그 서버의 데이터를 복제해서 여러 대의 슬레이브 서버를 만든 후에 슬레이브에서는 읽기 작업만을 수행하게 구성한다.
따라서 Read Replica는 RDS DB 인스턴스의 읽기 전용 인스턴스가 된다.
위와 같이 Delete, Update, Insert 작업이 실행될 땐 RDS DB Instance로 요청이 들어가고, Select 작업을 수행해야 한다면 Read Replica에 요청이 들어가게 되는 것이다.
이를 통해 읽기 위주의 작업이 많은 경우 부하를 분산할 수 있게 된다.
따라서 Read Replica는 성능 극대화를 위해 존재하기에, Read heavy work가 많을 시 서버 다운이 일어날 수 있기 때문에 Read Replica를 사용해야 한다.
둘다 RDS Primary 인스턴트를 복제한다는 점은 같지만, 앞서 Multi-AZ 복제와 혼동하면 안된다.
1. 복제의 목적
Multi-AZ 복제는 서비스가 항상 가동해야 하는 가용성을 위한 것이지, 부하 분산을 통한 성능 향상이 목적이 아니다.
Read Replica 기능은 Disaster Recovery(재해 복구) 용도가 아니다. 즉, 안정성을 위한 서비스가 아닌 퍼포먼스를 위한 서비스 이다.
Multi-AZ 복제본 같은 경우는 그저 안정성을 위해 아무것도 하지않는 생 인스턴스를 미리 준비해 가동하는 것이지만, Read Replica는 실제로 다른 EC2들과 상호작용을 하기 때문이다.
2. 복구 방법
그리고 Read Replica는 Multi-AZ 와 달리 fail over(자동복구)가 불가능하다.
만약 RDS Primary가 고장났을경우, 관리자가 직접 수동으로 쓰기 DNS를 복제본에 연결해 복구를 해줘야 한다.
3. 복제 데이터 일관성
Multi-AZ 복제는 쓰기 작업을 실시한 즉시 자동으로 예비 인스턴스에 복제된다. 따라서 두 DB 인스턴스의 데이터가 항상 일치하는 것을 보장한다.
그러나, 복제된 예비 인스턴스에서는 읽기 작업을 할 수 없다.
Read Replica의 경우 쓰기 작업을 실시하면 약간의 시간차를 가지고 데이터가 복제되게 된다. 따라서 데이터가 일치하지 않을 수 있다.
Tip
만일 S3를 배웠다면, PUT동작과 UPDATE/DELETE 동작간의 데이터 일관성 최종 일관성과 같은 원리이다.