AWS Athena 활용하기

code_able·2023년 10월 21일

S3에 적재된 csv, json, parquet 파일의 데이터를 스캔하여
External table을 생성, ANSI Query를 사용하여
데이터를 조회 할 수 있도록 해주는 서비스다.
엔진은 prestoDB를 사용한다.

필요한 데이터만 스캔 할 수 있도록 파티셔닝을 한다.

S3://data/year=2023/month=10/day=10/
or
S3://data/dt=20231010/

ddl

CREATE EXTERNAL TABLE my_data(
)
PARTITIONED BY (year int, month int, day int)

테이블 새성 후 자동으로 파티션을 지정할 수 있도록 하는 명령어

MSCK REPAIR TABLE my_data

S3://data/20231010/

ALTER로 수동으로 작업을 해야 한다.

ALTER TABLE my_data PARTITION (dt='20231010') location 'S3://data/20231010/'

아테나 사용시 데이터 압축을 권장한다.
용량이 적어야 자원 사용이 적고 쿼리 성능이 빨라 질 수 있다.

할수 있다! code able