[DP-203] Data Storage : Archiving Data in Azure Blob Storage

Becoming a Data Engineer ·2024년 1월 4일
0

Azure

목록 보기
12/27
post-thumbnail

3가지 Tier


  • Hot (기본값)

    Optimized for frequently accessed data.

    Storage Account에 설정되는 기본값이다. 왜냐하면 Azure Blob Storage는 사용자가 일상적인 데이터를 다루고 있다고 가정하기 때문이다.

  • Cool

    Optimized for infrequently accessed data that's stored for about a month.

  • Archive

    Optimzed for data that is rarely accessed.

Tier 별 비교

Minimum TimeStorage CostAccess CostUse
HOT없음가장 높음가장 낮음active or staging data
COOL30 daysHOT에 비해 낮음HOT에 비해 높음 (약 2배)short-term data (단기 백업 및 복구에 적합)
ARCHIVE180 days가장 낮음가장 높음long-term backup

Tier를 선택할 때 고려사항


  • Tier Setting

    • Account(계정) 레벨에서는 HOT과 COOL만 설정할 수 있다.
    • ARCHIVE는 Blob 레벨에서 선택 가능하다.
  • COOL has Lower Availability

    COOL은 HOT 에 비해 가용성이 다소 낮다. 이는 Storage Cost를 낮추는 대신 얻는 상충 관계이다.

    여기서 "가용성이 낮다"라는 것은 Cool 계층이 Hot 계층에 비해 데이터에 접근하는 속도가 느리거나, 덜 자주 접근하는 데이터에 사용되므로, Hot 계층에 비해 상대적으로 사용 가능한 시간이나 응답성이 떨어질 수 있다는 의미이다.

    가용성(Availability) 이란?

    시스템, 응용 프로그램, 데이터베이스, 스토리지 등이 사용자의 요청에 응답할 준비가 되어 있는 정도를 말한다.

    가용성이 높다는 것은 시스템이 예상치 못한 오류나 문제에도 불구하고 사용자가 필요로 할 때 항상 사용할 수 있다는 것을 의미한다.

  • Early Deletion 에 대한 패널티가 있다.

    COOL 또는 ARCHIVE 계층에 Blob이 있고, Minimum Time 이전에 Blob의 티어를 이동하거나 삭제하면 조기 삭제에 대한 비용이 발생하게 된다.

  • Archive Data is Stored Offline

    ARCHIVE 데이터는 오프라인에 저장된다.

    이것은 마치 Blob이 압축되어 오프라인에 저장되는 것처럼 생각할 수 있다. 다른 티어에서 다시 온라인으로 가져오는 데 많은 시간이 소요될 것이다. 따라서, ARCHIVE 계층 내의 데이터를 다른 계층 간에 왔다갔다 이동시키는 것은 간단하지 않다.

  • Storage Limits

    Access Tier 선택이 데이터 저장 제한에 직접적인 영향을 미치지 않는다. 즉, 데이터 저장 제한은 각 Access Tier 별로 다른 것이 아니라, 전체 Azure Storage Account 레벨에서 설정된다.

    모든 데이터를 하나의 Tier에 저장할 수도 있고, 필요에 따라 세 가지 Tier를 모두 사용하여 데이터를 분산시킬 수도 있습니다. Storage Account의 저장 한도 내에서 자유롭게 데이터를 Hot, Cool, 또는 Archive Tier 중 어느 곳에나 저장할 수 있습니다.

  • Redundancy Options, 백업 및 복제 옵션

    • ARCHIVE 계층은 LRS, GRS 그리고 RA-GRS 만 지원한다.
    • HOT과 COOL 계층은 모든 Redundancy 옵션을 지원한다.
      • LRS (Locally Redundant Storage)

      LRS는 Azure Storage의 데이터 내구성을 나타내는 용어 중 하나입니다. LRS를 선택하면 데이터가 단일 데이터 센터 내에서 세 번 복제됩니다. 이것은 데이터 센터 단위의 내구성을 제공합니다.

      • GRS (Geo-Redundant Storage)

      GRS는 LRS와 유사하지만, 데이터가 원본 데이터 센터와 지리적으로 떨어진 두 번째 데이터 센터에도 복제됩니다. 이는 지리적 장애에 대비하여 데이터를 안전하게 보호하는 데 사용됩니다.

      • RA-GRS (Read-Access Geo-Redundant Storage)

      RA-GRS는 GRS와 유사하지만 추가로 읽기 전용 액세스를 제공합니다. 즉, 데이터의 손상이 발생한 경우에도 지리적으로 떨어진 복제본을 통해 읽기 액세스를 유지할 수 있습니다.


Azure Portal에서 Access Tier 설정하기


landing 컨테이너 안에 있는 testdata.json 이라는 Blob 의 Access Tier를 변경하려면

Account 레벨에서는 HOT과 COOL 만 설정할 수 있고, ARCHIVE는 Blob 레벨에서만 설정할 수 있다.

Setting > Configuration 메뉴에서는 configuration of storage account 을 확인할 수 있다. 여기에서 기본 Blob Access Tier를 확인할 수 있다.

아래 이미지를 보면 지금 기본 Blob Access Tier가 HOT이다. 처음 testdata.json 의 Tier 가 HOT 이었던 이유가 바로 이것 때문이다.


Review


  • HOT 계층은 자주 사용되는 데이터를 위한 것이다.
  • COOL 계층은 최소 30일 동안 저장될 자주 사용하지 않는 데이터를 위한 것이다.
  • ARCHIVE 계층은 180일 이상의 장기 저장을 위한 것이다.
profile
I want to improve more 👩🏻‍💻

0개의 댓글

관련 채용 정보