S3에 적재된 csv, json, parquet 파일의 데이터를 스캔하여
External table을 생성, ANSI Query를 사용하여
데이터를 조회 할 수 있도록 해주는 서비스다.
엔진은 prestoDB를 사용한다.
필요한 데이터만 스캔 할 수 있도록 파티셔닝을 한다.
S3://data/year=2023/month=10/day=10/
or
S3://data/dt=20231010/
ddl
CREATE EXTERNAL TABLE my_data(
)
PARTITIONED BY (year int, month int, day int)
테이블 새성 후 자동으로 파티션을 지정할 수 있도록 하는 명령어
MSCK REPAIR TABLE my_data
S3://data/20231010/
ALTER로 수동으로 작업을 해야 한다.
ALTER TABLE my_data PARTITION (dt='20231010') location 'S3://data/20231010/'
아테나 사용시 데이터 압축을 권장한다.
용량이 적어야 자원 사용이 적고 쿼리 성능이 빨라 질 수 있다.