# hadoop

254개의 포스트
post-thumbnail

[Hadoop] Hadoop Basics2. Meet MapReduce

MapReduce. Map side와 Reduce side로 나뉜다. Map은 HDFS에서 데이터를 읽어온다. Mapper가 데이터를 저장할 땐 각각의 Mapper의 Filesystem disk에 intermediate data 저장하게 되며 Reducer에 데이터

4일 전
·
0개의 댓글
·
post-thumbnail

[Hadoop] Weather Dataset 병렬 처리 비교 - Unix Tool vs. Hadoop

National Climatic Data Centerhttp://www.ncdc.noaa.gov/기상 센서들이 수집하는 대량의 로그데이터 → semi-structured, record-oriented한 행이 하나의 레코드, 행 단위의 아스키코드 형식기상관측소별

4일 전
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop Basics 1. 왜 하둡을 사용하여야 할까?

single drive에서 모든 데이터를 읽는다면 매우 많은 시간이 소요됨multiple disks에서 한번에 읽으면 어느정도 문제 해결 가능100개의 드라이브가 있다면, 각각 1/100의 데이터만 읽기문제점Hardware failure → replication(복제)

4일 전
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop 3.3.0 standalone 서버 구축 삽질기

Hadoop standalone 서버 구축 가이드

6일 전
·
0개의 댓글
·
post-thumbnail

M1 맥에서 Hadoop, Spark 설치하기

스파크를 설치하기 위해서 우선 하둡이 설치되어있어야 합니다. 따라서 하둡 설치과정부터 정리해 두었습니다. 하둡 설치가 완료되면 스파크 설치과정을 따라가시면 됩니다. 1. Hadoop 설치하기 (1) JAVA 설치 확인 하둡 설치 전 자바(JAVA)가 설치되어 있는지

7일 전
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS의 구조 (Architecture)

💡 HDFS의 구조에 대해 알아봅니다.HDFS는 Master, Slave 구조로 하나의 Namenode와 이에 할당된 여러 개의 Datanode로 구성됩니다. 네임노드는 메타데이터(데이터 노드의 위치정보 등등)를 가지고 있고 데이터는 블룩 단위로 나누어서 데이터노드에

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop][HDFS] HDFS 란?

💡 하둡의 분산 파일 저장 시스템인 <span style='color:Hadoop Distrubution File System의 약자로 우리가 일반적으로 사용하는 하드웨어서도 동작하고, 파일 손상 시 복구를 할 수 있는 분산된 파일 시스템을 목표로 합니다.실시간

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop, 버전별 특징

💡 Hadoop의 버전별 특징에 대해 소개합니다.v1병렬처리는 잡트래커와 태스크트래커가 담당하고, 분산저장은 네임노드와 데이터노드가 담당하는 구조로 설정하였습니다. 하지만 병렬처리의 클러스터 자원 관리와 애플리케이션의 라이프사이클 관리를 모두 잡트래커가 담당하는 문제

2023년 3월 21일
·
0개의 댓글
·

[Hadoop]Hadoop이란?

💡 <span style='color:여러 대의 컴퓨터를 사용하여 큰 크기의 데이터를 클러스터에서 병렬로 처리해서 속도를 latency를 줄이고 속도를 높이는 분산 처리가 주 목적입니다.방대한 비정형 데이터를 처리할 솔루션으로 Hadoop이 많이 사용되고 있으며

2023년 3월 21일
·
0개의 댓글
·
post-thumbnail

Hadoop vs Elasticsearch

간단한 검색 및 웹 분석이 초점이라면 Elasticsearch를 권장.규모 확장이 필요하고, 대량의 데이터와 타사 도구와의 호환성이 필요한 경우, Hadoop 인스턴스가 정답.

2023년 3월 19일
·
0개의 댓글
·

Hadoop SmallFiles Issue Trouble Shooting

Standby-Namenode shutdown 이슈 발생Standby-Namenode(mem 40G) 재시작 시, 8시간 동안 namespace image와 edit_log를 불러오다, GC를 반복히며 OOM(Out of Memory)으로 종료되는 상황기존 20,700

2023년 3월 16일
·
0개의 댓글
·
post-thumbnail

Maria DB, Hadoop, Spark, Zeppelin 설치

Ubuntu 20.04LTSDocker는 설치되어 있음maria-db 설치docker run --name maria-db -d -p 3306:3306 --restart=always -e MYSQL_ROOT_PASSWORD=\[] mariadb --lower_case_t

2023년 3월 14일
·
1개의 댓글
·

Yarn이란?

2012년 이전 Yarn의 등장 전까지 Hadoop(v.1.x)을 이용해서 대용량 프로세싱 작업을 위해선 MapReduce를 사용해야 했음Hadoop 2.0과 함께 Yarn이 등장하며 MapReduce제약에서 자유롭게 multi processing프로그램을 Hadoop

2023년 3월 12일
·
0개의 댓글
·

Zookeeper란?

분산 애플리케이션을 위한 분산 코디네이션 서비스분산 애플리케이션을 위한 동기화, 설정, 그룹, 네이밍에 대한 추상화된 수준의 서비스를 제공이를 API로 제공해 사용하기 쉽고, 데이터 모델도 디렉토리 구조를 이용하고 있어 이해하기 쉽다는 장점분산 시스템에 있어서 코디네이

2023년 3월 12일
·
0개의 댓글
·

HDFS Architecture(5) - Eraser Coding

SoftwareHadoop은 기본적으로 data block에 대해 3개의 복제본을 유지(replication-factor)이 data block은 fault tolerance를 위해 물리적으로 다른 위치(rack, data center)로 분산시킴복제본 정책은 데이터

2023년 3월 8일
·
0개의 댓글
·

HDFS Architecture(4) - Name Node HA

Name Node HA가 필요한 이유 namenode는 SPOF(단일장애지점)인데, 이는 Hadoop의 기본 아키텍처가 namenode를 master로, datanode들을 slave로 하는 master-slave 구조를 따르기 때문임. 이 중 namenode는

2023년 3월 5일
·
0개의 댓글
·

HDFS Architecture(3) - File Read/Write

클라이언트가 DistributedFileSystem object의 open() 메소드로 HDFS 파일을 읽겠다고 요청DistributedFileSystem은 RPC(Remote Procedure Call)로 namenode에 연결. open 대상이 되는 파일의 메타데이

2023년 3월 5일
·
0개의 댓글
·

HDFS Architecture(2) - Name Node, Data Node

네임노드는 블록의 위치, 권한 등의 정보를 메모리에 유지Fsimage : File System image. Name Node가 생성된 이후로부터의 HDFS의 namespace 정보Edit log : Fsimage로부터 현재까지의 변경사항 로그네임노드의 기능과 역할Met

2023년 3월 5일
·
0개의 댓글
·

HDFS Architecture(1) - Block based file system

HDFS는 블록 구조의 파일 시스템임HDFS에 저장되는 모든 파일은 일정 크기의 블록으로 나뉘어 여러 서버에 분산되어 저장됨블록의 기본 크기는 128MB이며, 변경 가능함(최근엔 서버 사양이 좋아져, 256MB, 512MB, 1G 등 다양하게 구성)파일과 블록하나의 파

2023년 3월 4일
·
0개의 댓글
·

HDFS란?(HDFS의 주요 특징)

HDFS의 Design Goal Hardware Failure Streaming Data Access Large Data Sets Simple Coherency Model Moving Computation is Cheaper than Moving Data

2023년 3월 4일
·
0개의 댓글
·