시리즈

Hadoop Ecosystem

1.[Hadoop] 1. ubuntu-base 생성

1) 이미지 다운로드 https://releases.ubuntu.com/focal/ 2) 새로 만들기 3) 가상 머신 이름과 운영 체제 4) 하드웨어 ![](https://velog.velcdn.com/images/ysyschoi99/post/

2024년 4월 28일

2.[Hadoop] 2. 라이브러리 설치

1) 필수 라이브러리 설치 2) ssh 실행 3) Java 설치 환경설정 4) hadoop 설치 5) python3 설치 & pip upgrade 환경설정 ![](https://velog.

2024년 4월 28일

3.[Hadoop] 3. master 생성, Hadoop 설치 / 설정

1) master 인스턴스 생성 2) master 인스턴스에서 Hadoop 설치 3) Hadoop 환경설정 4) hdfs-site.xml > HDFS에서 사용할 환경 정보를 설정하는 파일이다. dfs.replication : HDFS

2024년 7월 8일

4.[Hadoop] 4. Zookeeper 설치 / 설정

1) Zookeeper 설치 2) Zookeeper 환경설정 3) zoo.cfg 수정 4) myid 설정

2024년 7월 8일

5.[Hadoop] 5. worker 생성

1) sshd_config 수정 2) worker1, worker2, worker3 생성 3) <모

2024년 7월 8일

6.[Hadoop] 6. Zookeeper 실행

1) Zookeeper myid 파일 수정 2) Zookeeper 실행 ![](https://velog.velcdn.com/images/ysyschoi99/post/282b5db5-ba97-

2024년 7월 8일

7.[Hadoop] 7. Hadoop & Yarn 실행, 테스트

1) Namenode 초기화 2) Namenode 실행 3) Standby NameNode 4) (Hadoop)start-dfs.sh 실행 DFSZKFailo

2024년 7월 8일

8.[Hadoop] 8. WEB UI

1) 사용하고 있는 port hadoop web ui: 50070 yarn web ui: 8088 2) 포트 포워딩 호스트 IP: 127.0.0.1 / 호스트 port: 50070 & 8088 게스트 IP: master 서버 ip / 게스트 port: 5007

2024년 7월 8일

9.[Hadoop] 9. Hadoop FailOver 테스트, Hadoop 종료

1) Namenode 상태 확인 2) NameNode 죽이기 3) NameNode 상태 확인 4) Worker1에서 예제 테스트 𝝿 구하기 ![](https://velog.velcdn.com/i

2024년 7월 8일

10.[Hadoop] 10. 실행/종료 스크립트 생성

1) 실행 스크립트 생성 (cluster-start-all.sh) 2) 종료 스크립트 생성 (cluster-stop-all.sh) 3) 실행/종료 스크립트 권한 설정 4) cluster-start-all.sh 실행 확인 5) cluster-stop-all.sh 실행 확인 ![](https://vel

2024년 7월 8일

11.[Hadoop] 11. Map-Reduce 예제 (Word Count)

Map-Reduce는 기본적으로 Split -> Map -> Shuffle -> Reduce 의 절차 Split -> Map을 합쳐서 Map Task, Shuffle -> Reduce 를 합쳐서 Reduce Task Split 은 인풋데이터를 쪼개서 인풋을 키-쌍 값으로 만들어주는 작업이고, Map 은 키-쌍 값을 인풋으로 받아 list(키-값 쌍)을 내...

2024년 7월 9일

12.[Hadoop] 12. Crawling을 통한 Wordcount

1) Crawling에 필요한 라이브러리 다운로드 2) 크롤링 파일 (movie_crawling.py) 생성 movie_crawling.py 3) movie_crawling.py 실행 hdfs에 crawling 디렉토리 생성 movie_crawling.py 실행 결과 확인 4) Hadoop Wordcount 실행 ![](https://velo...

2024년 7월 9일

13.[Spark] Client Mode

목표: 1) 영화 데이터(movie.csv)를 hadoop에 전달. 2) 실행파일(ex01.py) 생성 2) Spark의 Client모드로 Data 출력 1) movie.csv (ubuntu->hadoop) 2) 실행 스크립트 생성 (pyspark_ex01.py) 3) Client Mode로 Data 출력

2024년 4월 3일

14.[Spark] pyspark tutorial (1)

Zeppelin Web UI 사용 http://127.0.0.1:18888/#/ 1) Spark 객체 2) emptyRDD spark.sparkContext.emptyRDD() Column Name, Dtype 지정 후 DataFrame 생성. 3) movie.csv 출력 ![](https://velog.velcdn.com/images/ysys...

2024년 4월 3일

15.[Spark] pyspark tutorial (2)

1) spark, RDD, schema 생성 2) 깡통 DataFrame 생성 3) DataFrame 생성 1 4) DataFrame 생성 2 5) schema 정보를 json으로 반환 ![](https://velog.velcdn.co

2024년 4월 3일

16.[hive 예제1] MLB 데이터

0) hadoop 시작 1) /home/ubuntu/data에 데이터 다운로드 https://raw.githubusercontent.com/good593/coursedataengineering/main/hadoop%20ecosystem/samples/5.%20Hive%20with%20MySQL/Master.csv 2) 데이터 확인 상위 10개 데이터...

2024년 3월 31일

17.[pig 예제] SalesJan2009.csv

1) 데이터 다운로드 2) ubuntu -> hadoop 3) pig 접속 후 데이터 import 4) 상품, 나라별 데이터 수 5) 상품별 min/max count 6) 모든 데이터에 상품별 Min/Max Column 추가 ![](https://velog.velcdn.com/images/ysyschoi99/post/b81e6490-ece3-...

2024년 4월 1일