1) 이미지 다운로드 https://releases.ubuntu.com/focal/ 2) 새로 만들기 3) 가상 머신 이름과 운영 체제 4) 하드웨어  필수 라이브러리 설치 2) ssh 실행 3) Java 설치 환경설정 4) hadoop 설치 5) python3 설치 & pip upgrade 환경설정  master 인스턴스 생성 2) master 인스턴스에서 Hadoop 설치 3) Hadoop 환경설정 4) hdfs-site.xml > HDFS에서 사용할 환경 정보를 설정하는 파일이다. dfs.replication : HDFS
1) Zookeeper 설치 2) Zookeeper 환경설정 3) zoo.cfg 수정 4) myid 설정
1) sshd_config 수정 2) worker1, worker2, worker3 생성 3) <모
1) Zookeeper myid 파일 수정 2) Zookeeper 실행  Namenode 초기화 2) Namenode 실행 3) Standby NameNode 4) (Hadoop)start-dfs.sh 실행 DFSZKFailo
1) 사용하고 있는 port hadoop web ui: 50070 yarn web ui: 8088 2) 포트 포워딩 호스트 IP: 127.0.0.1 / 호스트 port: 50070 & 8088 게스트 IP: master 서버 ip / 게스트 port: 5007
1) Namenode 상태 확인 2) NameNode 죽이기 3) NameNode 상태 확인 4) Worker1에서 예제 테스트 𝝿 구하기  실행 스크립트 생성 (cluster-start-all.sh) 2) 종료 스크립트 생성 (cluster-stop-all.sh) 3) 실행/종료 스크립트 권한 설정 4) cluster-start-all.sh 실행 확인 5) cluster-stop-all.sh 실행 확인 을 내...
1) Crawling에 필요한 라이브러리 다운로드 2) 크롤링 파일 (movie_crawling.py) 생성 movie_crawling.py 3) movie_crawling.py 실행 hdfs에 crawling 디렉토리 생성 movie_crawling.py 실행 결과 확인 4) Hadoop Wordcount 실행  영화 데이터(movie.csv)를 hadoop에 전달. 2) 실행파일(ex01.py) 생성 2) Spark의 Client모드로 Data 출력 1) movie.csv (ubuntu->hadoop) 2) 실행 스크립트 생성 (pyspark_ex01.py) 3) Client Mode로 Data 출력
Zeppelin Web UI 사용 http://127.0.0.1:18888/#/ 1) Spark 객체 2) emptyRDD spark.sparkContext.emptyRDD() Column Name, Dtype 지정 후 DataFrame 생성. 3) movie.csv 출력  spark, RDD, schema 생성 2) 깡통 DataFrame 생성 3) DataFrame 생성 1 4) DataFrame 생성 2 5) schema 정보를 json으로 반환  hadoop 시작 1) /home/ubuntu/data에 데이터 다운로드 https://raw.githubusercontent.com/good593/coursedataengineering/main/hadoop%20ecosystem/samples/5.%20Hive%20with%20MySQL/Master.csv 2) 데이터 확인 상위 10개 데이터...
1) 데이터 다운로드 2) ubuntu -> hadoop 3) pig 접속 후 데이터 import 4) 상품, 나라별 데이터 수 5) 상품별 min/max count 6) 모든 데이터에 상품별 Min/Max Column 추가 ![](https://velog.velcdn.com/images/ysyschoi99/post/b81e6490-ece3-...