처리할 데이터의 양은 쿼리 성능과 직접적인 관련이 있습니다. 따라서 필요한 데이터만 읽고 불필요한 모든 데이터를 건너뛰는 것이 매우 중요합니다. Spark 및 Delta로 적용할 수 있는 데이터 스키핑 및 프루닝 기술은 다음과 같습니다.
Delta 데이터 스키핑은 Delta 테이블에 데이터를 쓸 때 각 기본 Parquet 파일에 대해 처음 32개 열에 대한 통계(최소, 최대 등)를 자동으로 수집합니다. Databricks는 쿼리 시간에 이 정보(최소 및 최대 값)를 활용하여 쿼리 속도를 높이기 위해 불필요한 파일을 건너뜁니다.
32개 이상의 열에 대한 통계를 수집하려면 다음 Delta 속성을 설정할 수 있습니다:
CopyALTER TABLE my_table SET TBLPROPERTIES (
'delta.dataSkippingNumIndexedCols' = '64'
)
긴 문자열에 대한 통계 수집은 비용이 많이 드는 작업입니다. 긴 문자열에 대한 통계 수집을 피하기 위해 delta.dataSkippingNumIndexedCols
를 구성하여 긴 문자열이 포함된 열을 피하거나 다음과 같이 ALTER TABLE을 사용하여 긴 문자열이 포함된 열을 delta.dataSkippingNumIndexedCols
보다 큰 열로 이동할 수 있습니다:
CopyALTER TABLE my_table ALTER COLUMN my_long_string_column AFTER col_33
테이블을 읽을 때 일반적으로 모든 열을 선택하지만 이는 비효율적입니다. 불필요한 데이터 스캔을 피하기 위해 항상 실제로 워크로드 계산의 일부이고 다운스트림 쿼리에 필요한 열이 무엇인지 문의하세요. 소스 데이터베이스에서는 해당 열만 선택해야 합니다. 이는 쿼리 성능에 큰 영향을 미칠 수 있습니다.
이는 필터링을 최하위 수준, 즉 데이터 소스 엔진으로 푸시하는 것을 목표로 합니다. 전체 데이터 세트를 Spark의 메모리에 로드한 후 처리하는 대신 매우 낮은 수준에서 필터링을 수행하므로 쿼리 성능이 향상됩니다.
조건자 푸시다운을 활용하려면 소스 테이블에서 데이터를 읽을 때 필터를 추가하기만 하면 됩니다. 조건자 푸시다운은 데이터 소스 엔진에 따라 다릅니다. Parquet, Delta, Cassandra, JDBC 등과 같은 데이터 소스에서는 작동하지만 텍스트, JSON, XML 등과 같은 데이터 소스에서는 작동하지 않습니다.
조인 작업을 수행하는 경우 조인 전에 필터를 적용하세요. 경험적으로, 테이블 읽기 문 바로 다음에 필터를 적용하세요.
파티션 제거 기술을 사용하면 지정된 파티션에 있는 원하는 파일만 읽을 수 있도록 해당 파일 시스템에서 폴더를 읽을 때 성능을 최적화할 수 있습니다. 이는 디스크 I/O를 줄이기 위해 불필요한 데이터를 메모리에 유지하지 않도록 데이터 필터링을 소스에 최대한 가깝게 이동하는 것을 목표로 합니다.
파티션 프루닝을 활용하려면 테이블 파티션으로 사용되는 열에 필터를 제공하기만 하면 됩니다.
조인 작업을 수행하는 경우 조인 전에 파티션 필터를 적용하세요. 경험적으로, 테이블 읽기 문 바로 다음에 파티션 필터를 적용하세요.
Apache Spark 3.0+에서는 동적 파티션 프루닝(DPP)이라는 새로운 최적화가 구현되었습니다. DPP는 최적화 프로그램이 구문 분석 시 제거해야 하는 파티션을 식별할 수 없을 때 발생합니다. 특히, 하나 또는 여러 개의 팩트 테이블이 임의의 수의 차원 테이블을 참조하는 스타 스키마를 고려합니다. 이러한 조인 작업에서 차원 테이블을 필터링한 결과로 얻은 파티션을 식별하여 팩트 테이블에서 조인이 읽는 파티션을 제거할 수 있습니다. 이 기능을 활용하기 위해 구성이 필요하지 않습니다. Spark 3.0+에서는 기본적으로 활성화되어 있습니다.
동적 파일 프루닝(DFP)은 Databricks Runtime에서 사용 가능하며 모든 최신 런타임에서 기본적으로 활성화되어 있습니다. 이름에서 알 수 있듯이 DPP와 유사한 방식으로 작동하지만 파티션 수준 대신 파일 수준에서 동적 프루닝을 수행하여 쿼리 속도를 더욱 높입니다. 이 기능을 활용하기 위해 구성이 필요하지 않습니다. DFP는 Databricks Runtime 6.1 이상에서 자동으로 활성화됩니다.
Delta 캐시 및 Spark 캐시는 워크로드를 더 빠르게 만들기 위해 활용할 수 있는 두 가지 다른 유형의 캐싱입니다.
Delta 캐시는 빠른 중간 데이터 형식을 사용하여 원격 파일의 복사본을 노드 로컬 스토리지(SSD 드라이브)에 생성하여 데이터 읽기를 가속화합니다.
spark.conf.set("spark.databricks.io.cache.enabled", "true")
cache()
및 persist()
메서드를 사용하여 Spark는 Spark DataFrame의 중간 계산을 캐시하여 후속 작업에서 재사용할 수 있는 최적화 메커니즘을 제공합니다. 마찬가지로 CACHE TABLE 명령을 사용하여 테이블을 캐시할 수도 있습니다. 캐시된 데이터를 저장할 위치(메모리, 디스크, 메모리 및 디스크, 직렬화 여부 등)를 선택할 수 있는 다양한 캐시 모드가 있습니다.
모범 사례:
여러 SQL 쿼리에 걸쳐 있는 대규모 파이프라인에서는 종종 하나 이상의 중간 작업(또는 임시 또는 스테이징) Delta 테이블을 생성하는 경향이 있습니다. 이를 통해 가독성과 유지 관리성을 높이기 위해 큰 쿼리를 작은 쿼리로 나눌 수 있습니다. 그러나 이 전략은 다음과 같은 이유로 작업 실행 기간에 부정적인 영향을 미칩니다:
따라서 더 나은 접근 방식은 구체화된 Delta 테이블 대신 임시 뷰를 생성하는 것입니다. 임시 뷰는 지연 평가되고 실제로 구체화되지 않기 때문입니다.
모범 사례:
MERGE 작업을 사용하여 소스 테이블, 뷰 또는 DataFrame에서 대상 Delta 테이블로 데이터를 업서트할 수 있습니다. Delta Lake는 MERGE 명령에서 삽입, 업데이트 및 삭제를 지원합니다.
매일 전체 Delta 테이블을 덮어쓰고 삽입하는 대신 가능한 경우 증분 로드 전략을 사용하는 것이 좋습니다. 증분 로드를 달성하기 위해 Delta MERGE는 매우 중요합니다. Delta 병합은 또한 SCD Type 2 테이블 및 변경 데이터 캡처(CDC) 사용 사례를 만드는 데도 사용할 수 있습니다.
다음과 같은 최적화 기술을 사용하여 위에서 언급한 문제를 해결할 수 있습니다:
대상 테이블에 큰 파일(예: 500MB-1GB)이 포함된 경우 병합 작업의 1단계 동안 많은 파일이 드라이브로 반환됩니다. 파일이 클수록 일치하는 행을 하나 이상 찾을 가능성이 더 커지기 때문입니다. 이로 인해 많은 데이터가 다시 작성됩니다. 따라서 병합이 많은