# Hadoop Ecosystem

6개의 포스트
post-thumbnail

Spark 아키텍쳐와 실행

Spark 자체가 데이터 병렬 처리를 위해 개발된 것이기 때문에, 클러스터에 실행하는 것은 일반적인 일이다. 하지만, 클러스터에서 실행하는 방식은 여러가지 방식이 있으며, 조금 더 깊이 알아두어야 할 필요가 있어 기록한다. 스파크 어플리케이션의 아키텍처 구성요소

2023년 1월 24일
·
0개의 댓글
·
post-thumbnail

Hadoop Yarn 아키텍쳐

Hadoop을 배우게 되면, MapReduce 다음으로 Yarn의 개념을 가장 많이 접하게 되는데, 대부분은 단순히 리소스 매니저라는 단어 정도로만 머릿속에 넣고, 지나간다. 하지만, 문제 해결을 하는 데 있어서, 문제의 본질과 핵심에 대해 깊이 알지 못하면 결국 그것

2023년 1월 24일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (3)

설치한 hadoop이 정상적으로 실행되는지 확인을 위해 테스트 진행.hdfs에 파일을 저장하고 이 파일을 처리하는 mapreduce application을 yarn을 통해 배포하여 실행한다.간단한 텍스트파일을 hdfs에 저장하고 이 파일의 word count를 세는 m

2022년 9월 28일
·
1개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (2)

Container로 띄울 서비스들과 각 Container를 띄운 이미지, mount한 volume을 시각적으로 정리했다.전 포스팅에서 build한 이미지를 기반으로 필요한 서비스들을 docker container로 띄운다.volume 공유가 필요할 경우 docker 엔

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (1)

hadoop ecosystem을 docker container로 구축해보는 테스트를 진행해봤습니다. centos 이미지를 base로 단계별로 dockernize하여 필요한 이미지를 빌드하고 서비스별 컨테이너를 실행하도록 구성했습니다. 사용한 언어 및 프레임워크 버전은

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

[Week2] 데이터 엔지니어링이란?) 04. Hadoop Ecosystem

💡 (Apache) Hadoop : High-Availability Distributed Object-Oriented Platform의 약자

2022년 8월 30일
·
0개의 댓글
·