[하둡] 하둡 분산 파일시스템

HDFS란 하둡은 HDFS라는 분산 파일시스템을 제공한다. (Hadoop Distributed File System) 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면, 전체 데이터셋 분리된 여러 머신에 나눠서 저장할 필요가 있다. 네트워크로 연결된 여러 머신의

2022년 2월 17일
·
0개의 댓글
post-thumbnail

[Hadoop] 맵 리듀스

과정 입력 데이터를 스플릿이라는 조각으로 나눈다. 스플릿의 크기는 작을 수록 더 많은 수의 컴퓨터로 병렬적으로 처리할 수 있기 때문에 좋다. 하지만 너무 작으면 스플릿 관리와 맵 태스크 생성을 위한 오버헤드 때문에 잡의 실행 시간이 증가한다. 일반적으로 HDFS 블록

2022년 2월 3일
·
0개의 댓글

하둡: 당신이 알아야 할 것

이 글은 Hadoop: What you need to know를 번역한 것입니다. 2006년 야후에서 검색 플랫폼을 향상시키기 위해 썼던 한 방법부터 시작해 아파치 오픈소스 프로젝트, 그리고 세계의 큰 기업체에서 사실상의 표준으로 자리잡기까지 하둡은 데이터 프로세싱

2022년 1월 28일
·
0개의 댓글

데이터베이스는 망치, 맵리듀스는 스크류 드라이버.

이 글은 구글 직원의 'Databases are hammers; MapReduce is a screwdriver.'를 번역한 글입니다.많은 사람들이 맵리듀스에 관한 기사를 많이 보내왔다. 요새 맵리듀스 열풍이 불고 있는데다 나를 고용한 구글이 많이 쓰는지라 이걸 쓸까말

2022년 1월 27일
·
0개의 댓글

[Hadoop] 기초

우리는 데이터의 세상 속에 살고 있다.데이터는 끊임 없이 생성되며, 디지털이 아닌 아날로그 데이터까지도 점점 데이터로 옮겨지고 있다.데이터의 용량은 크기 대비 증가하고 있으며, 어차피 물리적인 크기를 늘리면 되니까 문제가 되지 않는다.문제는 데이터를 읽는 속도이다. 처

2022년 1월 27일
·
0개의 댓글