Python boto3 활용하여 S3 데이터 크롤링 하기

BAO.DE·2025년 1월 21일

AWS

목록 보기
5/5

들어가기

다량의 log 데이터를 s3에 담고 있는 경우
bucket에 데이터를 읽어 필요한 부분만 가공하여 DW에 적재할 필요가 있다.

AWS는 boto3 라이브러리를 제공하고 있기에 손 쉽게 가공 할 수 있다

사용 라이브러리

시작하기 앞서 필요한 Python 패키지를 다운

  • boto3
  • pandas ( 데이터 가공 )
  • awscli ( aws configure 설정 )

Read S3 client

S3 bucket에 접근전 사전 정보들을 먼저 체크해야한다.
bucket과 file read&write 권한이 있는지

설정에 맞는 access_key , secret_key가 등록되어있는지

자격증명 설정이 제대로 안이루어지면 bucket에 접근을 할 수 없다.

AWS CLI 자격 증명하기(aws configure 명령어) 터미널 열어서 설정!

aws confgirue

aws confgirue list

aws s3 ls

자주 사용할 AWS 접속 파라미터 변수선언

Get S3 Client

접속정보를 가지고 s3 client를 읽어온다.
boto3.client를 사용 service_name = 's3' 로 설정

s3 read 권한이 없으면 error message 호출되게 예외처리 구성

0개의 댓글