profile
데이터 엔지니어의 작업공간 / #PYTHON #SPARK #AWS #NCLOUD
post-thumbnail

[Spark] Kafka를 통해 들어오는 데이터를 Spark Streaming을 통한 실시간 처리하기

Kafka 데이터를 Spark Streaming으로 실시간 처리

2024년 5월 30일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark와 hadoop-aws 호환 버전에 따른 AWS S3와 통신할 수 있는 Spark Jupyter Lab Docker Image 구성하기

🔹 0. INTRO AWS S3는 거의 무제한의 저장 용량을 제공하며, 이를 통해 대규모 데이터를 저장하고 관리할 수 있어 Data Lake, Data Warehouse, Data Mart 등 다양한 티어의 데이터들을 저장하는 저장소로 활용하기 적합합니다. AWS

2024년 5월 23일
·
0개의 댓글
·
post-thumbnail

[Spark] Spark History Server Log 경로 설정하기

0. INTRO Spark History Server는 Spark 작업의 실행 이력을 시각적으로 추적하고 분석할 수 있는 필수 도구이다. UI에는 작업의 실행 시간, 자원 사용량, 작업의 내부 Flow, 에러 로그 등이 포함되어 있어 작업자가 실행한 Spark 작업의 성능 및 실행 상태를 손쉽게 파악할 수 있기 때문에 작업과 함께 중간중간 살펴본다면 굉장히...

2024년 5월 10일
·
0개의 댓글
·
post-thumbnail

[AWS] AWS Glue Job을 On-Premise에서 개발해보자!

0. INTRO Glue Job으로 Spark 스크립트를 작성하게되면 Glue Job 관련된 다른 import들을 함께 해주어야 한다. 예를 들자면 아래와 같은 것들이다. 이러한 import들 때문에 Glue Job에 사용할 Script를 개발할 때 AWS 콘솔에서 작업하게되는 경우가 많다. 물론 콘솔에서 작업하게되면 Glue Studio라는 아주 편리한...

2024년 5월 8일
·
0개의 댓글
·
post-thumbnail

[AWS] Glue Spark Job에 대한 Spark History Server UI 생성하기

CloudFormation을 통한 Spark History Server 생성으로 Glue Job에 대한 내용을 web UI로 확인하기

2024년 4월 22일
·
0개의 댓글
·
post-thumbnail

atlassian-python-api를 활용하여 Python 코드로 Jira에 Issue 및 Comment 등록하기

atlassian-python-api를 활용하여 Jira에 Issue 및 Comment를 등록해보자!

2024년 3월 28일
·
0개의 댓글
·
post-thumbnail

[K8S] Python으로 Kubernetes Job을 실행시키는 방법들

python kubernetes API로 kubernets 리소스를 다뤄보자!

2024년 3월 26일
·
0개의 댓글
·
post-thumbnail

[K8S] Kubernetes Job에 대한 실행/관리를 도와주는 Furiko 간단 사용기

Kubernetes Job에 대한 관리를 도와주는 Furiko 사용기!

2024년 3월 20일
·
0개의 댓글
·

Trino와 MYSQL에서 SQL 예약어와 이름이 같은 컬럼에 대한 처리 방법

0. INTRO 쿼리를 하다보면 분명 문법에 맞게 쿼리를 잘 짰는데 계속 에러가 나는 경우가 있다. 물론 여러가지 경우의 수가 있겠지만 그 중 한 가지는 order, group, explain 등 SQL 문법에서 사용되는 단어 즉, SQL 예약어와 컬럼 혹은 테이블의

2024년 3월 15일
·
0개의 댓글
·
post-thumbnail

[NCP] InitScript와 ncloud CLI를 활용한 NAS 볼륨 ACL에 노드 자동 등록 기능 구현하기

NKS 클러스터의 노드가 추가될 때 추가된 노드가 NAS 볼륨의 ACL에 자동으로 등록되도록 하는 기능 구현.

2024년 2월 20일
·
1개의 댓글
·
post-thumbnail

[SPARK] Spark SQL과 Spark Catalog를 통한 테이블 관리 및 데이터 프로세싱

SPARK SQL 및 Catalog에 대하여

2024년 2월 19일
·
0개의 댓글
·
post-thumbnail

[AWS] AWS STS와 Assume Role을 통한 안전한 권한 관리 및 예시 (AWS CLI, Python boto3)

Assume Role을 통해 일시적으로 권한을 받는 로직을 AWS CLI와 Python boto3로 알아보자!

2024년 2월 12일
·
0개의 댓글
·
post-thumbnail

[SPARK] Python, Scala Kernel이 모두 있는 Jupyter Lab Docker 이미지 만들기

python과 scala 커널이 모두 있는 Jupyter Lab Docker Image

2024년 2월 11일
·
0개의 댓글
·
post-thumbnail

[NKS] Ubuntu 환경에 Gitlab Server 설치 및 도메인 연동

네이버 클라우드 Server에 Gitlab을 설치하고 배포해보자!

2024년 2월 8일
·
0개의 댓글
·
post-thumbnail

[NCP] 쿠버네티스에서 NAS(Network Attached Storage) 볼륨과 연결할 수 있는 방법들 (nas-csi, nfs-provisionor)

🔹 0. INTRO 쿠버네티스는 배포된 서비스의 데이터를 저장 할 수 있는 다양한 옵션들을 제공한다. "쿠버네티스에서 Volume을 공유하기 위한 방법들" 이라는 예전 글에서 데이터 저장소로 사용할 수 있는 옵션들에 대해서 다뤄보았다. kubectl 명령을 내리는 b

2024년 2월 2일
·
0개의 댓글
·
post-thumbnail

[SPARK] Spark로 DB 데이터 read & write 하는 방법(postgresql, mysql)

Spark로 Database Connection 생성 후 테이블 데이터 다뤄보기!

2024년 1월 29일
·
0개의 댓글
·
post-thumbnail

[NCP] Python 코드 Cloud Function 생성 방법

NCP Cloud Function Python으로 생성해보자!

2024년 1월 28일
·
0개의 댓글
·