profile
데이터 엔지니어의 작업공간 / #PYTHON #CLOUD #SPARK #AWS #GCP #NCLOUD
post-thumbnail

[Spark] 실무에서 바로 써먹는 PySpark 핵심 명령어 총정리

Pyspark로 데이터 분석시 자주 사용하는 코드에 대하여 정리해 보았습니다.

2024년 12월 15일
·
0개의 댓글
·
post-thumbnail

Python Dataset 라이브러리로 데이터베이스 작업을 간편하게! 활용법 총정리!

dataset 라이브러리로 데이터베이스에 저장된 데이터 다루는 방법 총정리!

2024년 12월 12일
·
0개의 댓글
·
post-thumbnail

dataclass 데코레이터를 활용한 python Class 개발하기

dataclass 데코레이터를 활용한 간결한 python Class 개발방법 정리!

2024년 12월 10일
·
0개의 댓글
·
post-thumbnail

[GCP] Google Cloud에서 Custom VPC 인프라 구성하기(subnet, router, NAT)

구글 클라우드의 VPC 기본 리소스들에 대하여 알아보고 실습으로 이해해본다.

2024년 12월 9일
·
0개의 댓글
·
post-thumbnail

[GCP] Google Cloud IAM 권한 설정 기초 및 실습

Google Cloud의 IAM 및 Service Account에 대한 역할 부여에 대하여 알아본다.

2024년 12월 6일
·
0개의 댓글
·
post-thumbnail

MLflow 튜토리얼

MLflow를 통한 학습 내역 로깅부터 모델 저장 및 불러오기.

2024년 11월 4일
·
0개의 댓글
·
post-thumbnail

Optuna를 사용한 ML 모델 하이퍼파라미터 최적화 튜토리얼

Optuna 라이브러리를 활용한 효율적인 하이퍼파라미터 튜닝 방법

2024년 10월 31일
·
0개의 댓글
·
post-thumbnail

[GCP] Compute Engine 생성 후 VSCode를 통한 SSH 접속

Google Cloud Platform 에서 Compute Engine을 한 대 빌려 VSCode의 RemoteSSH를 통해 접속하는 방법

2024년 10월 30일
·
0개의 댓글
·
post-thumbnail

[Spark] Kafka를 통해 들어오는 데이터를 Spark Streaming을 통한 실시간 처리하기

Kafka 데이터를 Spark Streaming으로 실시간 처리

2024년 5월 30일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark와 hadoop-aws 호환 버전에 따른 AWS S3와 통신할 수 있는 Spark Jupyter Lab Docker Image 구성하기

🔹 0. INTRO AWS S3는 거의 무제한의 저장 용량을 제공하며, 이를 통해 대규모 데이터를 저장하고 관리할 수 있어 Data Lake, Data Warehouse, Data Mart 등 다양한 티어의 데이터들을 저장하는 저장소로 활용하기 적합합니다. AWS

2024년 5월 23일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark History Server Log 경로 설정하기

0. INTRO Spark History Server는 Spark 작업의 실행 이력을 시각적으로 추적하고 분석할 수 있는 필수 도구이다. UI에는 작업의 실행 시간, 자원 사용량, 작업의 내부 Flow, 에러 로그 등이 포함되어 있어 작업자가 실행한 Spark 작업의 성능 및 실행 상태를 손쉽게 파악할 수 있기 때문에 작업과 함께 중간중간 살펴본다면 굉장히...

2024년 5월 10일
·
0개의 댓글
·
post-thumbnail

[AWS] AWS Glue Job을 On-Premise에서 개발해보자!

0. INTRO Glue Job으로 Spark 스크립트를 작성하게되면 Glue Job 관련된 다른 import들을 함께 해주어야 한다. 예를 들자면 아래와 같은 것들이다. 이러한 import들 때문에 Glue Job에 사용할 Script를 개발할 때 AWS 콘솔에서 작업하게되는 경우가 많다. 물론 콘솔에서 작업하게되면 Glue Studio라는 아주 편리한...

2024년 5월 8일
·
0개의 댓글
·
post-thumbnail

[AWS] Glue Spark Job에 대한 Spark History Server UI 생성하기

CloudFormation을 통한 Spark History Server 생성으로 Glue Job에 대한 내용을 web UI로 확인하기

2024년 4월 22일
·
0개의 댓글
·
post-thumbnail

atlassian-python-api를 활용하여 Python 코드로 Jira에 Issue 및 Comment 등록하기

atlassian-python-api를 활용하여 Jira에 Issue 및 Comment를 등록해보자!

2024년 3월 28일
·
0개의 댓글
·
post-thumbnail

[K8S] Python으로 Kubernetes Job을 실행시키는 방법들

python kubernetes API로 kubernets 리소스를 다뤄보자!

2024년 3월 26일
·
0개의 댓글
·
post-thumbnail

[K8S] Kubernetes Job에 대한 실행/관리를 도와주는 Furiko 간단 사용기

Kubernetes Job에 대한 관리를 도와주는 Furiko 사용기!

2024년 3월 20일
·
0개의 댓글
·

Trino와 MYSQL에서 SQL 예약어와 이름이 같은 컬럼에 대한 처리 방법

0. INTRO 쿼리를 하다보면 분명 문법에 맞게 쿼리를 잘 짰는데 계속 에러가 나는 경우가 있다. 물론 여러가지 경우의 수가 있겠지만 그 중 한 가지는 order, group, explain 등 SQL 문법에서 사용되는 단어 즉, SQL 예약어와 컬럼 혹은 테이블의

2024년 3월 15일
·
0개의 댓글
·