# Hadoop Ecosystem

Spark 아키텍쳐와 실행
Spark 자체가 데이터 병렬 처리를 위해 개발된 것이기 때문에, 클러스터에 실행하는 것은 일반적인 일이다. 하지만, 클러스터에서 실행하는 방식은 여러가지 방식이 있으며, 조금 더 깊이 알아두어야 할 필요가 있어 기록한다. 스파크 어플리케이션의 아키텍처 구성요소

Hadoop Yarn 아키텍쳐
Hadoop을 배우게 되면, MapReduce 다음으로 Yarn의 개념을 가장 많이 접하게 되는데, 대부분은 단순히 리소스 매니저라는 단어 정도로만 머릿속에 넣고, 지나간다. 하지만, 문제 해결을 하는 데 있어서, 문제의 본질과 핵심에 대해 깊이 알지 못하면 결국 그것

Hadoop-ecosystem - Docker container로 구축해보기 (3)
설치한 hadoop이 정상적으로 실행되는지 확인을 위해 테스트 진행.hdfs에 파일을 저장하고 이 파일을 처리하는 mapreduce application을 yarn을 통해 배포하여 실행한다.간단한 텍스트파일을 hdfs에 저장하고 이 파일의 word count를 세는 m

Hadoop-ecosystem - Docker container로 구축해보기 (2)
Container로 띄울 서비스들과 각 Container를 띄운 이미지, mount한 volume을 시각적으로 정리했다.전 포스팅에서 build한 이미지를 기반으로 필요한 서비스들을 docker container로 띄운다.volume 공유가 필요할 경우 docker 엔

Hadoop-ecosystem - Docker container로 구축해보기 (1)
hadoop ecosystem을 docker container로 구축해보는 테스트를 진행해봤습니다. centos 이미지를 base로 단계별로 dockernize하여 필요한 이미지를 빌드하고 서비스별 컨테이너를 실행하도록 구성했습니다. 사용한 언어 및 프레임워크 버전은

[Week2] 데이터 엔지니어링이란?) 04. Hadoop Ecosystem
💡 (Apache) Hadoop : High-Availability Distributed Object-Oriented Platform의 약자