설치 : Cloudera HDP Data Platform 2.6.5
- 사용하는 플랫폼에 맞게 다운로드
다양한 기술 간의 차이점, 어떤 것을 사용할지 결정하는 것, 어떻게 조합하여 문제를 해결할 것인지 결정하는 능력
10분에서 20분 정도 소요
id : maria_dev pw : maria_dev
- 접근에 문제가 있다면 8080 port를 사용하는 다른 프로그램이 없는지 확인해보기
HDFS
: 클러스터의 하드 드라이브들을 하나의 거대한 파일 시스템으로 사용 YARN
:컴퓨터 클리스터의 리소스 관리 MapRduce
: 데이터를 클러스터 전체에 걸쳐 처리하도록 하는 프로그래밍 모델Pig
: 고수준 API로 SQL문을 MapReduce 문으로 변환하여 데이터 추출Hive
: SQL 쿼리를 받아 파일 시스템에 저장된 데이터를 SQL DB처럼 취급Ambari
: 클러스터 전체의 리소스 관리, 시각화, Pig, Hive 등으로 쿼리 실행 Mesos
: YARN과 같은 리소스 관리자Spark
: MapReduce와 동일 선상, YARN 이나 Mesos에 기반하여 쿼리를 실행할 수 있음 TEZ
: 방향성 비사이클 그래프를 사용하여 MapReduce 연산에 유리 HBASE
: NoSQL 데이터베이스STORM
: 스트리밍 데이터를 처리하는 방식OOZIE
: 클러스터의 작업을 스케줄링예를 들어
데이터를 Hive에 불러와서 Pig를 통해 통합하고 Spark로 쿼리하여 결과를 HBASE로 변환하는 경우, OOZIE를 이용하여 관리할 수 있음 Zookeeper
: 클러스터의 모든 것을 조직화Sqoop
: Hadoop의 DB를 관계형 데이터베이스로 엮음 여러 쿼리 엔진들
DRILL
Zeppelin
HUE
PHOENIX
presto
데이터를 블록 형태로 나누어 저장
Read
: Name Node와 Data Node가 있고, 요청이 오면 Name Node가 어느 Data Node의 Block에 접근할지 알려줌Write
: Name Node에 요청하여 저장할 Data Node 위치를 획득하고, Data Node는 다른 Data Node에게 복사본 전달, 잘 저장되었다면 Name Node에게 저장 위치를 회신
Name Node가 있는 저장소가 고장난다면 어떻게 해야할까?
데이터를 블록으로 나누어 저장하여 회복성이 좋음
ssh maria_dev@127.0.0.1 -p 2222
Are you sure you want to continue connecting (yes/no/[fingerprint])? yes
wget http://media.sundog-soft.com/hadoop/ml-100k/u.data
hadoop fs -ls
hadoop fs -mkdir ml-100k
hadoop fs -copyFromLocal u.data ml-100k/u.data
hadoop fs -rm ml-100k/u.data
hadoop fs -rmdir ml-100k