[AWS] EC2서버에 개발 환경 구축 및 구성요소

yoonseok choi·2022년 8월 19일

MariaDB aws hadoop hive spark zeppelin

AWS

목록 보기

2/11

AWS-EC2 서버에 Ubuntu를 기반으로 하여 개발환경을 설정 중이다.

Eviroment in Ubuntu

1. Java

Hadoop,Yarn,Spark,Zookeeper와 같은 시스템은 JVM에서 동작하기에 java설치는 필수적이다.

2. Hadoop

Big Data를 다루기 위해 사용되는 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼으로 수백 TERA의 용량을 다루기에 용이하고 주로 기업이나 개인 서버로 많이 사용된다.
(추후 기업에서 데이터를 잘 다루기 위해서는 hadoop을 제대로 이해하고 있어야한다.)

3. MariaDB

Hive를 사용하기 위해선 Database & Table의 스키마 정보, 메타정보를 저장하기 위한 Metastore로 RDB가 필요하기 때문에 이를 구성하기 위하여 MariaDB를 설치한다.

✏️ MetaData: 어떠한 목적을 지고 만들어진 데이터로, 대량의 데이터가 존재 할 때 찾고자하는 데이터를 효율적으로 찾아내기 위해 일정한 규칙이나 구조화된(Tree) 정보가 부여된 데이터이다.
ex) 핸드폰으로 촬영된 사진에 부여된 정보 - 위치,시간,etc...

4. Hive

Hive는 Hadoop에서 SQL을 사용하기 위해서 개발되었다.
또한 정형화된 데이터를 다루기에 용이하고, 데이터 웨어하우징용 솔루션이다.

✏️ 정형화된 데이터:excel or sheet에 표기 할 수 있는 데이터를 의미한다.
(https://www.purestorage.com/kr/knowledge/big-data/structured-vs-unstructured-data.html)

✏️ 데이터 웨어하우징: 여러 소스로부터 얻은 대량의 데이터를 중앙 집중화 방식으로 통합하여 해당 데이터를 분석 및 저장하는 것을 의미한다.
(https://aws.amazon.com/ko/data-warehouse/)

5. Spark

인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크이다. (Big Data 분산 처리 엔진)

✏️ In-Memory : 전체 데이터를 하드 디스크 상에서 사용하는 것이 아니라 메모리에 적재하여 사용하는 것을 의미한다.

-> 인메모리 기반으로 비용이 좀 더 들지만, Hadoop's MapReduce보다 100배 빠른 속도로 작업이 가능하다.

6. Zeppelin

앞서 구축한 Hadoop,Yarn,Spark,Zookeeper를 클러스터 환경의 Zeppelin을 연동하기 위해서 설치한다.

-> Web상에서 시각적으로 구현이 가능하다.

yoonseok choi

Concilio et Labore ( 지혜와 노력으로 )

이전 포스트

[Hadoop] Hadoop TIL

다음 포스트