회사 빅데이터 분석 환경 구축을 위한 프로세스 과정을 기록하기 위하여 글을 작성하게 됨단계를 나눠서 프로젝트를 발전 시키고 싶음관련 내용으로 개발경험이 존재하지 않아서 리서치 & 스터디를 하며 구축할 예정 전일자 하루치 데이터를 기반으로 분석하여 분석 결과 도출그로
빅데이터 분석에 기초가 되는 하둡 클러스터를 세팅해보고 PySpark를 통해 기초 데이터 분석까지 실행해 볼 예정이다.2대의 Namenode 와 3대의 Datanode로 구성되어 있다.Active Namenode의 Failover 대비로 Standby Namenode
이제부터 Centos docker 기반 세팅할 예정
이번 챕터에서는 2강에 이어서 CentOS 기반 base image 생성을 진행해볼 예정이다. 🎈Python 설치 1. Python & PySpark 설치 2. CentOS Python 환경설정 🎈Spark 설치 1. Spark 설치 및 압축 해제 google에
On-Premise 서버 간 네트워크 통신을 위해 Overlay 네트워크를 구성하고 hostname, rpc 통신을 위한 static IP 할당
Zookeeper, Hadoop & yarn, Spark Cluster & PySpark 실행 확인(WEB UI로 확인)전체 시작,종료 Script 작성하여 장애대응을 할 수 있도록 준비할 예정이다.해당 내용은 추후 전체 시작 스크립트에서 수정 가능하도록 반영할 예정h
Hadoop, Yarn, Spark, Zookeeper 를 모두 실행 가능한 sh파일 권한 확인Hadoop, Yarn, Spark, Zookeeper 를 모두 중지 가능한 sh재실행 스크립트 (cluster-restart-all.sh)Hadoop, Yarn, Spark
지금까지 설정한 Hadoop, Yarn, Spark, Zookeeper 클러스터 환경에 Zeppelin을 연동하기 위해 설치 및 환경설정을 진행한다.: Apache Zeppelin은 Spark를 통한 데이터 분석의 불편함을 Web기반의 Notebook을 통해서 해결해보