Google Cloud Platform 에서 Compute Engine을 한 대 빌려 VSCode의 RemoteSSH를 통해 접속하는 방법
Kafka 데이터를 Spark Streaming으로 실시간 처리
🔹 0. INTRO AWS S3는 거의 무제한의 저장 용량을 제공하며, 이를 통해 대규모 데이터를 저장하고 관리할 수 있어 Data Lake, Data Warehouse, Data Mart 등 다양한 티어의 데이터들을 저장하는 저장소로 활용하기 적합합니다. AWS
Spark File Streaming
0. INTRO Spark History Server는 Spark 작업의 실행 이력을 시각적으로 추적하고 분석할 수 있는 필수 도구이다. UI에는 작업의 실행 시간, 자원 사용량, 작업의 내부 Flow, 에러 로그 등이 포함되어 있어 작업자가 실행한 Spark 작업의 성능 및 실행 상태를 손쉽게 파악할 수 있기 때문에 작업과 함께 중간중간 살펴본다면 굉장히...
0. INTRO Glue Job으로 Spark 스크립트를 작성하게되면 Glue Job 관련된 다른 import들을 함께 해주어야 한다. 예를 들자면 아래와 같은 것들이다. 이러한 import들 때문에 Glue Job에 사용할 Script를 개발할 때 AWS 콘솔에서 작업하게되는 경우가 많다. 물론 콘솔에서 작업하게되면 Glue Studio라는 아주 편리한...
CloudFormation을 통한 Spark History Server 생성으로 Glue Job에 대한 내용을 web UI로 확인하기
atlassian-python-api를 활용하여 Jira에 Issue 및 Comment를 등록해보자!
python kubernetes API로 kubernets 리소스를 다뤄보자!
Kubernetes Job에 대한 관리를 도와주는 Furiko 사용기!
0. INTRO 쿼리를 하다보면 분명 문법에 맞게 쿼리를 잘 짰는데 계속 에러가 나는 경우가 있다. 물론 여러가지 경우의 수가 있겠지만 그 중 한 가지는 order, group, explain 등 SQL 문법에서 사용되는 단어 즉, SQL 예약어와 컬럼 혹은 테이블의
pandas DataFrame을 S3에 다이렉트로 저장해보자!
NKS 클러스터의 노드가 추가될 때 추가된 노드가 NAS 볼륨의 ACL에 자동으로 등록되도록 하는 기능 구현.
Assume Role을 통해 일시적으로 권한을 받는 로직을 AWS CLI와 Python boto3로 알아보자!
python과 scala 커널이 모두 있는 Jupyter Lab Docker Image