profile
데이터 엔지니어의 작업공간 / #PYTHON #CLOUD #SPARK #AWS #GCP #NCLOUD
post-thumbnail

Docker Network들에 대해 실습과 함께 알아보자!(Bridge, Host, None)

Docker의 Bridge, Host, None 네트워크에 대하여 알아보고 실습까지 진행해봅시다!

2025년 1월 11일
·
0개의 댓글
·
post-thumbnail

[Airflow] Docker-Compose Airflow 시스템에 외부 패키지 추가하기!

Docker Compose로 구축된 Airflow 시스템에 외부 패키지 추가 설치하기!

2025년 1월 9일
·
0개의 댓글
·
post-thumbnail

[GCP] Python으로 BigQuery 자유자재로 다루기!

Python으로 BigQuery 데이터 다루기 튜토리얼!

2025년 1월 5일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark로 Google Cloud Storage 데이터 읽어오기!

0. INTRO 대규모 데이터를 클라우드 객체 저장소에 보관한 뒤 Spark를 활용해 분석하는 방식은 이제 데이터 분석의 대표적인 사례로 자리 잡았습니다. 특히, 클라우드 서비스 환경에서는 Spark와 객체 저장소 간의 통합이 이미 기본적으로 설정된 경우가 많아, 별다른 추가 설정 없이 바로 사용할 수 있는 편리함이 있습니다. 그러나 로컬 환경에서 Spar...

2025년 1월 2일
·
0개의 댓글
·
post-thumbnail

[Polars 총정리 2부_심화] Polars로 데이터 분석을 더 빠르게!

python으로 Polars를 다룸에 있어 심화적인 기능들에 대하여 총정리! (SQLContext, LazyFrame 등)

2024년 12월 26일
·
0개의 댓글
·
post-thumbnail

[Polars 총정리 1부_기본] Polars로 데이터 분석을 더 빠르게!

Pandas 상위호환! Polars를 활용하여 데이터 분석에 필요한 기초적인 내용 총정리!

2024년 12월 24일
·
0개의 댓글
·
post-thumbnail

[Spark] 실무에서 바로 써먹는 PySpark 핵심 명령어 총정리

Pyspark로 데이터 분석시 자주 사용하는 코드에 대하여 정리해 보았습니다.

2024년 12월 15일
·
0개의 댓글
·
post-thumbnail

Python Dataset 라이브러리로 데이터베이스 작업을 간편하게! 활용법 총정리!

dataset 라이브러리로 데이터베이스에 저장된 데이터 다루는 방법 총정리!

2024년 12월 12일
·
0개의 댓글
·
post-thumbnail

dataclass 데코레이터를 활용한 python Class 개발하기

dataclass 데코레이터를 활용한 간결한 python Class 개발방법 정리!

2024년 12월 10일
·
0개의 댓글
·
post-thumbnail

[GCP] Google Cloud에서 Custom VPC 인프라 구성하기(subnet, router, NAT)

구글 클라우드의 VPC 기본 리소스들에 대하여 알아보고 실습으로 이해해본다.

2024년 12월 9일
·
0개의 댓글
·
post-thumbnail

[GCP] Google Cloud IAM 권한 설정 기초 및 실습

Google Cloud의 IAM 및 Service Account에 대한 역할 부여에 대하여 알아본다.

2024년 12월 6일
·
0개의 댓글
·
post-thumbnail

MLflow 튜토리얼

MLflow를 통한 학습 내역 로깅부터 모델 저장 및 불러오기.

2024년 11월 4일
·
0개의 댓글
·
post-thumbnail

Optuna를 사용한 ML 모델 하이퍼파라미터 최적화 튜토리얼

Optuna 라이브러리를 활용한 효율적인 하이퍼파라미터 튜닝 방법

2024년 10월 31일
·
0개의 댓글
·
post-thumbnail

[GCP] Compute Engine 생성 후 VSCode를 통한 SSH 접속

Google Cloud Platform 에서 Compute Engine을 한 대 빌려 VSCode의 RemoteSSH를 통해 접속하는 방법

2024년 10월 30일
·
0개의 댓글
·
post-thumbnail

[Spark] Kafka를 통해 들어오는 데이터를 Spark Streaming을 통한 실시간 처리하기

Kafka 데이터를 Spark Streaming으로 실시간 처리

2024년 5월 30일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark와 hadoop-aws 호환 버전에 따른 AWS S3와 통신할 수 있는 Spark Jupyter Lab Docker Image 구성하기

🔹 0. INTRO AWS S3는 거의 무제한의 저장 용량을 제공하며, 이를 통해 대규모 데이터를 저장하고 관리할 수 있어 Data Lake, Data Warehouse, Data Mart 등 다양한 티어의 데이터들을 저장하는 저장소로 활용하기 적합합니다. AWS

2024년 5월 23일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark History Server Log 경로 설정하기

0. INTRO Spark History Server는 Spark 작업의 실행 이력을 시각적으로 추적하고 분석할 수 있는 필수 도구이다. UI에는 작업의 실행 시간, 자원 사용량, 작업의 내부 Flow, 에러 로그 등이 포함되어 있어 작업자가 실행한 Spark 작업의 성능 및 실행 상태를 손쉽게 파악할 수 있기 때문에 작업과 함께 중간중간 살펴본다면 굉장히...

2024년 5월 10일
·
0개의 댓글
·
post-thumbnail

[AWS] AWS Glue Job을 On-Premise에서 개발해보자!

0. INTRO Glue Job으로 Spark 스크립트를 작성하게되면 Glue Job 관련된 다른 import들을 함께 해주어야 한다. 예를 들자면 아래와 같은 것들이다. 이러한 import들 때문에 Glue Job에 사용할 Script를 개발할 때 AWS 콘솔에서 작업하게되는 경우가 많다. 물론 콘솔에서 작업하게되면 Glue Studio라는 아주 편리한...

2024년 5월 8일
·
0개의 댓글
·