# HDFS

20개의 포스트
post-thumbnail

[Hadoop] Hdfs API를 사용하여 데이터 Upload & Download

Client -> Django -> S3, Spark -> S3유저가 업로드한 비디오 파일 & Spark에서 이미지 압축 파일를 S3로 전달 > Hdfs로 전달수정 이유S3 비용프레임마다 자른 img 압축 파일과 비디오 파일은 사용 빈도가 적음비디오 파일 및 img 압

5일 전
·
0개의 댓글

[Hadoop] Hadoop NameNode Cluster 상태 전이

Hdfs 운용중에 NameNode 클러스터를 구성하면서 네임노드와 StandBy네임노드 간의 상태전이가 이루어지는데 동시에 StandBy모드로 빠지는 경우가 종종 있다( Zookeeper 재시작, Hadoop Cluster Restart, SafeMode) 등등 😭

2022년 6월 14일
·
0개의 댓글

Spark - HDFS 외부 접근 시 hostname으로 통신

dfs.client.use.datanode.hostname

2022년 6월 14일
·
0개의 댓글
post-thumbnail

Impala 사용을 위한 HDFS 권한 설정

Impala 4.1.0 버전을 설치 완료한 상태에서 Impala 테스트를 위해 실행한 CREATE TABLE이 다음 오류를 뱉으며 정상 실행되지 않았다. Impala 계정은 hadoop 그룹에 속해있었으며 refreshUserToGroupsMappings 명령어를

2022년 5월 27일
·
0개의 댓글
post-thumbnail

Distributed Computing

A local process will use the computation resources of a single machine A distributed process has access to the computational resources across a number

2022년 4월 7일
·
0개의 댓글

하둡 분산 파일시스템(HDFS)

데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장해야 함네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템 이라고 함분산 파일시스템의 목표는 특정 노드에 장애가 발생해도 자료가 유실되지 않는

2022년 3월 19일
·
1개의 댓글
post-thumbnail

[TIL] 하둡 생태계에 대한 간단한 이야기

하둡의 생태계 알고 싶쥬? 개 어렵쥬?

2022년 3월 4일
·
0개의 댓글

Hadoop이란

1. Hadoop이란? > - Hadoop은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신 적당한 성능의 범용 컴퓨터 여러대를 클러스터화하여 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크 2. Hadoop의 구성요소 1) Hadoop Common > - 하둡의...

2022년 2월 18일
·
0개의 댓글

[하둡] 하둡 분산 파일시스템

HDFS란 하둡은 HDFS라는 분산 파일시스템을 제공한다. (Hadoop Distributed File System) 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면, 전체 데이터셋 분리된 여러 머신에 나눠서 저장할 필요가 있다. 네트워크로 연결된 여러 머신의

2022년 2월 17일
·
0개의 댓글

[Line Developer Day 2021] 대규모 스토리지에서 HDFS Erasure Coding을 사용할 때의 기술적 과제

DAY1 15:20-15:40 KST Youtube linkHDFS 는 Hadoop 하위 프로젝트로 분산형 파일시스템.서버가 다운되어도 데이터가 사라지지 않도록 하고 높은 처리 능력으로 RW 가능Master 인 NameNode 와 Slave 인 DataNode 로 구성

2021년 12월 15일
·
0개의 댓글

[Hadoop] Hadoop & HDFS

하둡이란?하둡은 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스(MapReduce)를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS

2021년 11월 28일
·
0개의 댓글

HDFS 명령어

hdfs 명령어

2021년 9월 26일
·
0개의 댓글

[DE] Hadoop (HDFS)

빅데이터 관련 포스팅을 보면 대부분 하둡 에코시스템(Hadoop eco-system)을 사용하는것을 볼 수 있습니다. Hadoop에 대해 알아보도록 하겠습니다.

2021년 8월 29일
·
0개의 댓글
post-thumbnail

[ADP] 분산 파일 시스템 정리 및 비교

분산 파일 시스템 ✅ GFS, HDFS 정리 및 비교

2021년 6월 25일
·
0개의 댓글

JAVA의 HDFS 종속성

HDFS 3.1.4 기준으로 서술됨수동으로 Library(jar)을 추가할 생각은 포기하는 편이 좋습니다.Maven 종속성 2개가 필요하며 version은 HDFS 버전에 대응시키시면 됩니다.

2021년 6월 17일
·
0개의 댓글

HDFS Cluster 구성

Apache Nutch라는 OpenSource 분산 크롤러를 사용하기 위해서는 Hadoop Cluster가 필요하다. 그래서 Linux(ubuntu) 서버 2대를 활용해 HDFS 구성 테스트를 진행해보았다.wget을 이용하여 Hadoop 3.2.2 version을 설치

2021년 5월 13일
·
0개의 댓글
post-thumbnail

Hadoop 메모

공부를 해보면서 Hadoop이라는 단어를 쓸 때 어떤 것을 지칭하는 지 확실히 해야 한다는 것을 느꼈음. 여러 문서를 읽어본 결과, 각각 문서에서 Hadoop이란 단어의 정확한 의미가 각자 다름. 예를들면..Hadoop이란 단어를 Hadoop Ecosystem 전체를

2021년 4월 18일
·
0개의 댓글
post-thumbnail

하둡 에코시스템

높은 확장성과 신뢰성을 보유한 분산 스토리지와 분산 처리 기능을 제공하기 위해 다양한 소프트웨어를 밀접하게 통합한 에코시스템.

2020년 10월 3일
·
0개의 댓글