# hadoop

169개의 포스트
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (3)

설치한 hadoop이 정상적으로 실행되는지 확인을 위해 테스트 진행.hdfs에 파일을 저장하고 이 파일을 처리하는 mapreduce application을 yarn을 통해 배포하여 실행한다.간단한 텍스트파일을 hdfs에 저장하고 이 파일의 word count를 세는 m

어제
·
0개의 댓글
·

HBase migration (export/import)

HBase 데이터를 migration 하는 경우 정리해봄이미 Hadoop cluster와 HBase가 함께 결합되어 구동되는 상황이라 가정합니다.migration 순서는 아래 순서대로 진행함원본 HBase에서 export 단계아래 명령어들 따르시면 export가 진행됩

2일 전
·
0개의 댓글
·
post-thumbnail

하둡 클러스터 구성

단일 ec2 서버에 빅데이터 분산처리를 위한 hadoop cluster서버를 구축할 일이 생겼다. 원래는 다른 서버에 데이터노드와 네임노드를 만들어야 하지만 나에게 서버는 하나 밖에 없어 우분투 이미지를 바탕으로 각각 하둡을 설치해 master 1개와 worker 2개

3일 전
·
0개의 댓글
·
post-thumbnail

(1)hive 설치하기

필자는 hadoop 3.3.1 / hive 3.1.2로 진행함hadoop을 아직 설치하지 않은 사람은 https://velog.io/@kidae92/Hadoop-Cluster 참고하길 바란다hdfs안에 폴더 생성 및 권한 부여/usr/local/hive/bin

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

아파치 하둡 에코시스템 한 줄 정리

하둡 에코시스템에대해 대충은 알지만 누가 "000은 뭐하는거야?" 라고 물어보면 대답할 수 없을거 같았다. ( 아파치 소프트웨어 재단 아파치 소프트웨어 재단(Apache Software Foundation, ASF) 아파치 소프트웨어 재단(이하 ASF)은 다양한 오

2022년 9월 17일
·
0개의 댓글
·
post-thumbnail

Hadoop

해당 문서는 하둡에 대해 정리하기 위해 작성된 문서이다.

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (2)

Container로 띄울 서비스들과 각 Container를 띄운 이미지, mount한 volume을 시각적으로 정리했다.전 포스팅에서 build한 이미지를 기반으로 필요한 서비스들을 docker container로 띄운다.volume 공유가 필요할 경우 docker 엔

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (1)

hadoop ecosystem을 docker container로 구축해보는 테스트를 진행해봤습니다. centos 이미지를 base로 단계별로 dockernize하여 필요한 이미지를 빌드하고 서비스별 컨테이너를 실행하도록 구성했습니다. 사용한 언어 및 프레임워크 버전은

2022년 9월 5일
·
0개의 댓글
·
post-thumbnail

220905

#CodeSeries #Lambda

2022년 9월 5일
·
0개의 댓글
·

[Hadoop] HDFS 기본 명령어와 블록

HDFS의 명령어와 블록에 대해 서술하였습니다. 실습내용은 곧 업로드 될 예정입니다.

2022년 9월 4일
·
0개의 댓글
·
post-thumbnail

[Hadoop] HDFS

🔊 Udemy 의 Hadoop 강의를 학습한 뒤 정리한 내용입니다. HDFS란 무엇인지에 관해 알아봅니다.

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

CentOS7 하둡 (Hadoop) 설치하기

#Hadoop 설치하기

2022년 8월 29일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Big Data에 대한 소개

🔊 Udemy 의 Hadoop 강의를 학습한 뒤 정리한 내용입니다. Big data가 무엇인지, 어떤 문제에 방법론을 적용할 수 있는지에 관해 다룹니다.

2022년 8월 29일
·
0개의 댓글
·

[Hadoop] Hadoop 클러스터에서 노드 제거

hdfs-site.xml 의 dfs.hosts.exclude 에 파일명을 지정한다.해당 파일에는 클러스터에서 제거할 노드 IP를 기재한다.Hadoop Namenode 를 재시작한다.이미 dfs.hosts.exclude 를 설정한 경우 재시작 없이 refresh 할 수

2022년 8월 29일
·
0개의 댓글
·
post-thumbnail

MapReduce Framework

아주 많은 값싼 서버들을 이용함적은 수의 값비싼 서버들을 이용함두배의 성능을 가진 프로세서 한 개를 가진 컴퓨터의 가격이 일반적인 프로세서 한 개를 가진 컴퓨터 가격의 두 배보다 훨씬 더 비쌈한대의 컴퓨터의 능력으로 처리가 어려움근본적으로 수십대, 수백대 혹은 수천대의

2022년 8월 26일
·
0개의 댓글
·
post-thumbnail

[8.23 TIL] Hadoop

단일 서버에 수천대의 머신으로 확장할 수 있도록 설계되었다.일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으니, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리와 같은 하둡 생태계(Haddoop Ecosystem) 전반을

2022년 8월 23일
·
0개의 댓글
·

[Hadoop] Hadoop 명령어

사용자 명령어 root 디렉토리 리스트 확인 파일시스템 환경 체크 환경변수 확인 디렉토리 생성 (mkdir) local -> HDFS로 복사 (put) HDFS -> local로 복사 (get) HDFS의 두개 파일을 합쳐서 로컬 복사(getmerge) HDFS 내부에서 파일 복사 관리자 명령어 Disk balance 손상된 블록 리스...

2022년 8월 19일
·
0개의 댓글
·

[AWS] EC2서버에 개발 환경 구축 및 구성요소

AWS-EC2 서버에 Ubuntu를 기반으로 하여 개발환경을 설정 중이다. Eviroment in Ubuntu 1. Java > Hadoop,Yarn,Spark,Zookeeper와 같은 시스템은 JVM에서 동작하기에 java설치는 필수적이다. 2. Hadoop > Big Data를 다루기 위해 사용되는 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는...

2022년 8월 19일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop TIL

- Hadoop 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼 -> 데이터의 양이 많아짐에 따라 분산해서 저장 why? -> 한번에 큰 데이터를 한번에 저장하기 힘들기 때문에 -HDFS (Hadoop Distributed File System) 블록 파일 시스템과 디스크 블록과 같은 유형 마스터(데이터의 위치, 형식보관) - 슬레이브(실...

2022년 8월 16일
·
0개의 댓글
·
post-thumbnail

[하둡 완벽 가이드] 하둡 기술의 등장

현재 우리가 빅데이터 시대에 살고 있다는 것은 자명한 사실이며 데이터 아키텍처에게는 빅데이터에 대한 지식은 필수적인 역량이 되어 가고 있다.이 페이지를 시작으로 빅데이터 처리 프레임워크인 Hadoop에 대해서 알아갈 예정이다.우선, 모두 한 번쯤은 들어 보았을 빅데이터

2022년 8월 7일
·
0개의 댓글
·