[AWS] Advanced Storage on AWS

Gaeun·2023년 5월 14일
0

참고 자료

https://www.udemy.com/course/best-aws-certified-solutions-architect-associate/

1. AWS Snow Family

  • 보안성이 뛰어난 휴대 가능한 장치들로, 엣지에서 데이터를 수집하고 처리하거나 AWS 안팎으로 데이터를 마이그레이션할 수 있는 솔루션
  • 데이터 마이그레이션: Snowcone, Snowball Edge, Snowmobile
  • 엣지 컴퓨팅: Snowcone, Snowball Edge

🚚 Data Migrations


네트워크를 통한 데이터 전송의 문제점:

  • 시간이 오래 걸림
  • 제한된 연결성
  • 제한된 대역폭
  • 높은 네트워크 비용
  • 대역폭 공유 문제 (라인을 최대로 활용할 수 없음)
  • 연결의 안정성

AWS Snow Family: 오프라인 장치를 사용하여 데이터 마이그레이션 수행. 네트워크를 통한 데이터 전송이 일주일이 넘게 걸린다면 Snowball 장치를 사용해야 함.

Diagrams

  • S3로 직접 파일을 업로드하는 경우:

  • Snow 제품군을 사용하는 경우:

Snowball Edge (for data transfers)

  • 물리적 데이터 이동 솔루션: TB 또는 PB 단위의 데이터를 AWS 안팎으로 전송
  • 네트워크를 통한 데이터 이동 대안 (네트워크 비용 청구)
  • 데이터 전송 작업 별로 비용 청구
  • 블록 스토리지 및 Amazon S3 호환 객체 스토리지 제공
  • Snowball Edge Storage Optimized: 블록 볼륨으로 사용할 수 있도록 80 TB HDD 용량을 제공하거나 S3 호환 객체 스토리지 제공
  • Snowball Edge Compute Optimized: 블록 볼륨으로 사용할 수 있도록 42 TB HDD 또는 28TB NVMe 용량을 제공하거나 S3 호환 객체 스토리지 제공
  • 사용 사례: 대용량 클라우드 마이그레이션, 데이터 센터 폐쇄, 재해 복구

AWS Snowcone & Snowcone SSD

  • 작고 휴대 가능한 컴퓨팅 장치로 어디에서나 사용 가능하며 견고하고 안전하며 가확한 환경에 견딜 수 있음
  • 가벼움 (4.5 파운드, 2.1kg)
  • 엣지 컴퓨팅, 스토리지 및 데이터 전송용 장치
  • Snowcone: 8 TB HDD 스토리지
  • Snowcone SSD:14 TB SSD 스토리지
  • Snowball 사용이 적합하지 않은 공간 제한 환경에서 Snowcone 사용
  • 배터리, 케이블은 직접 준비해야 함
  • AWS 오프라인으로 다시 전송하거나 네트워크에 연결해서 AWS DataSync를 사용하여 데이터 재전송

AWS Snowmobile

  • 엑사바이트(1 EB = 1,000 PB = 1,000,000 TB)의 데이터를 전송
  • 각 Snowmobile은 100 PB의 용량을 가지고 있으며(병렬로 여러 대 사용 가능), 대량의 데이터 전송에 적합
  • 온도 조절이 가능하며 GPS와 연중무휴 영상 감시 등 고급 보안 시설을 제공
  • 10 PB 이상의 데이터를 전송해야 할 경우 Snowball보다 우수한 성능을 제공

Summary - AWS Snow Family for Data Migrations

Snow Family – Usage Process

  1. AWS 콘솔에서 Snowball 장치의 배송을 요청
  2. 서버에 Snowball 클라이언트 또는 AWS OpsHub를 설치
  3. Snowball을 서버에 연결하고 클라이언트를 사용하여 파일을 복사
  4. 작업을 완료한 후 장치를 반송 (올바른 AWS 시설로 이동됨).
  5. 데이터는 S3 버킷에 로드
  6. Snowball은 완전히 삭제됨

💻 Edge Computing

  • 데이터가 엣지 로케이션에서 생성될 때 데이터를 처리하는 컴퓨팅 패러다임
    • 엣지 로케이션은 인터넷이 없는 곳이나 클라우드에서 멀리 있는 곳 어디든 해당될 수 있음. 예를 들면 도로에 있는 트럭, 해상의 배, 지하의 채광소 등과 같은 장소
    • 이러한 장소는 인터넷 접속이 제한적이거나 전혀 없을 수 있으며, 컴퓨팅 자원에 쉽게 액세스할 수 없는 경우가 많음
  • 이를 해결하기 위해 Snowball Edge나 Snowcone과 같은 장치를 사용하여 엣지 컴퓨팅을 수행
  • 엣지 컴퓨팅의 사용 사례: 데이터 전처리, 클라우드로 보내지 않고 엣지에서 머신 러닝하는 경우, 사전 미디어 스트림 트랜스 코딩 등
  • 필요한 경우에는 장치를 AWS로 다시 전송하여 데이터 전송 등의 작업을 할 수 있음.

Snow Family – Edge Computing

Snowcone & Snowcone SSD (smaller)

  • 2개의 CPU, 4GB의 메모리, 유선 또는 무선 액세스
  • USB-C 전원을 사용하여 전원 공급 또는 선택적 배터리 사용 가능

Snowball Edge – Compute Optimized

  • 104개의 가상 CPU, 416 GiB의 RAM
  • 선택적 GPU (비디오 처리 또는 머신 러닝에 유용)
  • 28TB NVMe 또는 42TB HDD의 사용 가능한 스토리지

Snowball Edge – Storage Optimized

  • 최대 40개의 vCPU, 80GB의 RAM, 80TB의 스토리지
  • 객체 스토리지 클러스트링 가능
  • All: EC2 인스턴스 및 AWS Lambda 함수 실행 가능 (AWS IoT Greengrass 사용)
  • 장기 배포 옵션: 1년 및 3년 할인된 가격 설정

💻 AWS OpsHub

  • 예전에는 Snow 제품군을 사용하기 위해 CLI(명령줄 인터페이스 도구)를 사용해야 했으며 방식 또한 매우 어려웠다.
  • 현재는 AWS OpsHub (컴퓨터 또는 노트북에 설치하는 소프트웨어)을 사용하여 Snow 장치를 관리할 수 있다.
  • 단일 장치 또는 클러스터 장치의 잠금 해제 및 구성
  • 파일 전송
  • Snow 장치에서 실행되는 인스턴스의 시작 및 관리
  • 장치 메트릭 (저장 용량, 장치에서 활성화된 인스턴스 등) 모니터링
  • AWS 호환 서비스 실행 가능 (ex. Amazon EC2 인스턴스, AWS DataSync, Network File System (NFS))

❔ Solution Architecture: Snowball into Glacier

Snowball을 통해 데이터를 직접적으로 Glacier에 가져올 수는 없다. Amazon S3를 사용하여 수명 주기 정책을 생성하여 Amazon Glacier로 객체를 전환할 수 있다.

즉, Snowball이 Amazon S3로 데이터를 가져오면 S3의 수명 주기 정책을 통해 해당 데이터가 Amazon Glacier로 전환된다!

2. Amazon FSx

  • 타사 고성능 파일 시스템을 실행
  • AWS에서 제공하는 완전 관리형 서비스
    가령 RDS에서 AWS에 MySQL이나 Postgres를 실행하는 것과 같은 개념. RDS가 FSx로 바뀌었고, 파일 시스템을 실행한다는 점이 다름
  • FSx for Lusture, FSx for Windows File Server, FSx for NetApp ONTAP, FSx for OpenZFS

📁 Amazon FSx for Windows (File Server)

  • FSx for Windows는 완전 관리형 Windows 파일 시스템 공유 드라이브
  • SMB 프로토콜과 Windows NTFS를 지원
  • Microsoft Active Directory 통합을 지원하므로, ACL(액세스 제어 목록)로 사용자 할당량을 추가해 액세스를 제어할 수 있음
  • Linux EC2 인스턴스에 마운트할 수 있음
  • Microsoft의 분산 파일 시스템 (Distributed File System, DFS) 네임스페이스를 지원 (파일 시스템 그룹화)
  • Scale up to 10s of GB/s, millions of IOPS, 100s PB of data
  • 스토리지 옵션:
    • SSD: 지연 시간이 짧아야하는 워크로드 (데이터베이스,미디어 처리, 데이터 분석 등)
    • HDD: 넓은 스펙트럼의 워크로드 (홈 디렉토리, 콘텐츠 관리 시스템 등)
  • 온프레미스 인프라 (VPN 또는 Direct Connect)에서도 액세스할 수 있음
  • 고가용성을 위해 다중 AZ로 구성할 수 있음
  • 데이터는 매일 S3로 백업됨

📁 Amazon FSx for Lustre

  • Lustre는 원래 대규모 컴퓨팅을 위한 분산 파일 시스템으로 쓰였음
  • Lustre는 "Linux"와 "Cluster"를 합친 단어
  • 머신 러닝, High Performance Computing (HPC), 즉 고성능 연산에 쓰였음
  • 동영상 처리, 금융 모델링, 전자 설계 자동화 등 다양한 분야에서 사용
  • Scales up to 100s GB/s, millions of IOPS, sub-ms latencies
  • 스토리지 옵션:
    • SSD: 낮은 지연시간 및 IOPS 집약적인 워크로드
    • HDD: 처리량 집약적인 워크로드, 크고 순차적인 파일 작업에 적합
  • Amazon S3와 원활한 통합을 제공 (Seamless integration with S3)
    • FSx를 통해 S3를 파일 시스템처럼 "읽을 수" 있음
    • FSx의 연산 출력값을 다시 S3로 기록할 수 있음
  • VPN 혹은 직접 연결을 통해 온프레미스 서버에서 사용 가능

FSx Lustre - File System Deployment Options

Scratch File System

  • 임시 스토리지
  • 데이터가 복제되지 않음 (기저 서버가 오작동하면 파일이 모두 유실됨)
  • 높은 버스트 (6배 더 빠름, TiB당 200MBps)
  • 사용 용도: 단기 처리 데이터, 비용 최적화

Persistent File System

  • 장기 스토리지
  • 데이터가 같은 가용 영역 내에 복제됨 (AZ간이 아닌 동일한 AZ 내에서만 복제)
  • 기저 서버가 오작동 했을 때 몇 분 내에 해당 파일을 교체할 수 있음
  • 사용 용도: 장기 처리, 민감한 데이터

📁Amazon FSx for NetApp ONTAP

  • AWS의 관리형 NetApp ONTAP 파일 시스템
  • NFS, SMB, iSCSI 프로토콜과 호환되는 파일 시스템
  • ONTAP이나 NAS에서 실행 중인 워크로드를 AWS로 이전할 수 있음
  • 다양한 운영 체제에서 사용 가능
    • Linux
    • Windows
    • MacOS
    • VMware Cloud on AWS
    • Amazon Workspaces & AppStream 2.0
    • Amazon EC2, ECS and EKS
  • 스토리지는 자동으로 확장 및 축소됨 (오토 스케일링)
  • 스냅샷, 복제, 데이터 압축 및 데이터 중복 제거 기능 지원
  • 비용이 적게 듦
  • 지정 시간 복제 기능을 통한 즉각적인 복제(새로운 워크로드 테스트에 유용)

📁 Amazon FSx for OpenZFS

  • AWS의 관리형 OpenZFS 파일 시스템
  • 여러 버전의 NFS 프로토콜과 호환 가능 (v3, v4, v4.1, v4.2)
  • ZFS에서 실행되는 워크로드를 내부적으로 AWS로 옮길 때 사용
  • 다양한 운영 체제에서 사용 가능
    • Linux
    • Windows
    • MacOS
    • VMware Cloud on AWS
    • Amazon Workspaces & AppStream 2.0
    • Amazon EC2, ECS and EKS
  • <0.5ms 지연 시간으로 최대 1,000,000 IOPS 가능
  • 스냅샷, 데이터 압축 지원
  • 비용이 적게 들지만 데이터 중복 제거 기능은 없음
  • 지정 시간 복제 기능을 통한 즉각적인 복제(새로운 워크로드 테스트에 유용)

3. AWS Storage Gateway

AWS는 "하이브리드 클라우드"를 권장하는데 이는 일부 인프라는 AWS 클라우드에 있고 나머지는 온프레미스에 두는 방식을 뜻한다. 여러 이유가 있을 수 있는데 클라우드 마이그레이션이 오래 걸리거나, 보안 또는 규정 준수 요건이 있거나 IT 전략 때문일 것이다.

S3는 EFS/NFS와 달리 독점 스토리지 기술이다. 그렇다면 이 S3 데이터를 온프레미스에 두려면 어떻게 해야할까? 바로 AWS Storage Gateway를 사용하여 S3와 온프레미스 인프라를 연결하면 된다.

AWS Storage Cloud Native Options

🚪 AWS Storage Gateway

  • 온프레미스 데이터와 클라우드 데이터 간의 연결을 제공
  • 사용 사례:
    • 재해 복구
    • 백업 및 복원
    • 계층화된 스토리지
    • 온프레미스 캐시 및 파일 액세스 지연 시간 감소
  • Storage Gateway 유형
    • S3 File Gateway
    • FSx File Gateway
    • Volume Gateway
    • Tape Gateway

Amazon S3 File Gateway

  • NFS 및 SMB 프로토콜을 사용하여 구성된 S3 버킷에 액세스할 수 있음
  • 최근에 사용된 데이터는 파일 게이트웨이에 캐시로 저장됨
    • 전체 S3 버킷이 아닌 최근에 사용한 파일만 파일 게이트웨이에 있음!
  • S3 Standard, S3 Standard IA, S3 One Zone A, S3 Intelligent Tiering 지원
  • 수명 주기 정책을 사용하여 S3 Glacier로의 전환 가능
  • 각 파일 게이트웨이에 대한 IAM Role을 사용하여 버킷 액세스 설정
  • SMB 프로토콜을 사용하는 경우에는 사용자 인증을 위해 Active Directory (AD)와 통합해야 함

Amazon FSx File Gateway

  • Amazon FSx for Windows 파일 서버에 대한 네이티브 액세스 제공
  • 자주 액세스하는 데이터를 위한 로컬 캐시
  • 파일 게이트웨이에서 Windows 네이티브인 SMB, NTFS, Active Directory 등 호환 가능
  • 그룹 파일 공유 및 온프레미스를 연결할 홈 디렉토리에 유용

Volume Gateway

  • iSCSI 프로토콜을 사용하여 S3를 백업으로 하는 블록 스토리지
  • 온프레미스 볼륨 복원에 도움이 되는 EBS 스냅샷을 지원
  • Cached volumes: 최근 데이터 액세스 시 지연시간이 낮음
  • Stored volumes: 전체 데이터셋이 온프레미스에 있으며 주기적으로 S3 백업

Tape Gateway

  • 일부 회사들은 물리적 테이프를 사용한 백업 프로세스를 가지고 있다.
  • Tape Gateway를 사용하면 회사들은 테이프 대신 클라우드를 활용해 백업할 수 있게 된다.
  • Amazon S3 및 Glacier를 백업으로 하는 가상 테이프 라이브러리(Virtual Tape Library, VTL)
  • 테이프 기반 프로세스의 기존 백업 데이터를 iSCSI 인터페이스를 사용하여 백업
  • 업계를 선도하는 백업 소프트웨어 벤더가 사용하는 서비스

Storage Gateway – Hardware appliance

  • Storage Gateway를 사용하려면 온프레미스 가상화가 필요
  • 온프레미스에 서버가 없는 경우, Storage Gateway 하드웨어 어플라이언스를 사용할 수 있음
  • amazon.com에서 구매 가능
  • 미니 서버가 될 하드웨어 어플라이언스를 인프라에 설치한 후, 파일 게이트웨이, 볼륨 게이트웨이, 혹은 테이프 게이트웨이로 설정하면 됨
  • 제대로 작동하기 위해서는 충분한 CPU, 메모리, 네트워크 그리고 SSD 캐시 리소스가 필요함
  • 소규모 데이터 센터의 일일 NFS 백업 처럼 가상화가 없는 경우 상당히 유용함

AWS Storage Gateway

4. AWS Transfer Family

  • AWS 전송 제품군: Amazon S3 또는 EFS 안팎으로의 파일(데이터) 전송을 위한 완전 관리형 서비스
  • S3 APIs나 EFS 네트워크 파일 시스템을 사용하지 않고 FTP 프로토콜만 사용함
  • 지원하는 프로토콜
    • AWS Transfer for FTP (File Transfer Protocol (FTP))
    • AWS Transfer for FTPS (File Transfer Protocol over SSL (FTPS))
    • AWS Transfer for SFTP (Secure File Transfer Protocol (SFTP))
  • 완전 관리되는 인프라, 확장성, 안정성, 고가용성 (다중 AZ)
  • 시간당 프로비저닝된 엔드포인트별 비용과 데이터 전송량(GB)에 따라 요금 지불
  • 사용자의 자격 증명을 서비스 내에서 저장 및 관리 가능
  • 기존 인증 시스템과 통합 가능 (Microsoft Active Directory, LDAP, Okta, Amazon Cognito, 사용자 지정 소스)
  • 사용 사례: 파일 공유, 공개 데이터셋 공유, CRM, ERP 등

5. AWS DataSync

  • 대용량의 데이터를 한 곳에서 다른 곳으로 옮김
  • 온프레미스 / 다른 클라우드에서 AWS로 데이터 이동 (NFS, SMB, HDFS, S3 API등) - DataSync 에이전트 필요
  • AWS 서비스 간 데이터 이동 (다른 스토리지 서비스 간) - 에이전트 필요 없음
  • 다음으로 동기화할 수 있다.
    • Amazon S3 (Glacier를 포함한 모든 스토리지 클래스)
    • Amazon EFS
    • Amazon FSx (Windows, Lustre, NetApp, OpenZFS 등)
  • 복제 작업은 지속적이지 않고, 일정에 따라 실행된다. 매시간, 매일, 매주 실행되도록 지정할 수 있다.
  • 파일 권한 및 메타데이터 보존 (NFS POSIX, SMB 등)
  • 에이전트 하나의 태스크는 초당 10 Gbps를 사용할 수 있으며 대역폭 제한을 설정할 수 있다.

ex. NFS / SMB to AWS (S3, EFS, FSx...)

ex. Transfer between AWS storage services

6. Summary - Storage Comparison

  • S3: 객체 스토리지. 대부분의 AWS와 연결 가능
  • S3 Glacier: 객체 아카이브 스토리지
  • EBS volumes: 한 번에 한 개의 EC2 인스턴스에만 스토리지를 연결 할 때에는 EBS 볼륨 사용
  • Instance Storage: EC2 인스턴스에 직접 연결된 물리적 스토리지 (고 IOPS)
  • EFS: Linux 인스턴스용 네트워크 파일 시스템, 다중 가용 영역 간 마운트 하며 POSIX 파일 시스템 사용
  • FSx for Windows: Windows 서버용 네트워크 파일 시스템으로, Windows와의 원활한 호환성과 통합 기능 제공
  • FSx for Lustre: 고성능 병렬 분산 파일 시스템으로, HPC에서 계산 집약적인 워크로드에 적합
  • FSx for NetApp ONTAP: 관리형 NetApp ONTAP 파일 시스템으로, 다양한 운영 체제와의 높은 호환성 제공
  • FSx for OpenZFS: 관리형 ZFS 파일 시스템으로, Linux에 대한 원활한 호환성과 데이터 관리 기능 제공
  • Storage Gateway: 온프레미스 환경과 AWS 간의 연결을 제공하는 하이브리드 스토리지 서비스로, S3 및 FSx 파일 게이트웨이, 볼륨 게이트웨이 (캐시 및 저장), 테이프 게이트웨이를 지원
  • Transfer Family: FTP, FTPS, SFTP 프로토콜을 사용하여 Amazon S3 또는 Amazon EFS 위에서 파일 전송을 제공하는 완전 관리형 서비스
  • DataSync: 온프레미스 시스템과 AWS 또는 AWS 서비스 간의 예약 및 자동화된 데이터 전송을 지원하는 서비스
  • Snowcone / Snowball / Snowmobile: 대량의 데이터를 클라우드로 물리적으로 안전하고 효율적으로 이동하기 위한 장치
  • Database: 특정 워크로드에 대한 특화된 서비스로, 인덱스 및 쿼리 등의 기능을 제공
profile
🌱 새싹 개발자의 고군분투 코딩 일기

0개의 댓글