하둡

권성현·2023년 4월 11일

업무

목록 보기

9/22

하둡이란 무엇입니까?

"하둡"이란 무엇을 의미할까요? 더 중요한 것은, "하둡"은 무엇의 약자일까요? 사실, 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)을 뜻합니다. 하둡 기술은 바로 이런 장점을 개발자에게 제공합니다. 즉, 객체 지향적 작업을 병렬 분산하여 고가용성을 확보할 수 있습니다.

Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리하는 역할을 합니다. 하둡 플랫폼은 컴퓨터 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 병렬식으로 실행 가능한 작은 크기의 워크로드로 분해합니다.

하둡은 구조적, 비구조적 데이터를 처리할 수 있으며 단 한 대의 서버에서 시스템 수천 대 규모로 안정적으로 확장합니다.

하둡 프로그래밍이란 무엇인가요?

하둡 프레임워크에서 코드는 대부분 Java로 작성되지만, 일부 네이티브 코드는 C를 기반으로 합니다. 또한, 명령줄 유틸리티는 셸 스크립트로 작성되는 것이 일반적입니다. 하둡 MapReduce의 경우, Java를 가장 흔히 사용하지만 사용자는 하둡 스트리밍과 같은 모듈을 통해 원하는 프로그래밍 언어로 맵을 구현하고 함수를 줄일 수 있습니다.

하둡 데이터베이스란 무엇인가요?

하둡은 데이터 스토리지나 관계형 데이터베이스를 위한 솔루션이 아닙니다. 대신 오픈 소스 프레임워크로써, 실시간으로 엄청난 양의 데이터를 동시에 처리하는 것을 목적으로 합니다.

데이터는 HDFS에 저장됩니다. 그러나 비구조적이어서 관계형 데이터베이스로 간주하기 어렵습니다. 사실, 하둡을 사용하면 데이터를 비구조적, 반구조적, 구조적 형식으로 저장할 수 있습니다. 기업에서는 비즈니스 요구 사항을 충족하고 그 이상까지 기대할 수 있는 방식으로 더욱 유연하게 빅데이터를 처리할 수 있습니다.

하둡은 어떤 유형의 데이터베이스인가요?

기술적으로 하둡은 SQL이나 RDBMS 등의 데이터베이스와는 다릅니다. 대신, 하둡 프레임워크는 사용자에게 다양한 데이터베이스 유형에 대한 처리 솔루션을 제공합니다.

하둡은 기업이 단시간에 방대한 데이터를 처리하도록 도와주는 소프트웨어 에코시스템입니다. 이런 작업은 대규모로 병렬 컴퓨터 처리를 활용하기 때문에 가능합니다. Apache HBase와 같은 여러 데이터베이스는 수백, 수천 개의 상용 서버에 저장된 데이터 노드 클러스터에 흩어져 있습니다.

하둡은 언제 발명되었나요?

Apache Hadoop은 Yahoo나 Google과 같은 검색 엔진이 막 출발한 시점에서 끊임없이 늘어나는 빅데이터를 처리하고 웹 결과를 더 빨리 제공해야 한다는 필요성이 절실해지면서 탄생했습니다.

당시 Google의 MapReduce라는 프로그래밍 모델이 있었는데, 이 모델은 하나의 애플리케이션을 여러 부분으로 나누어 서로 다른 여러 노드에서 실행되도록 하는 방식을 취했습니다. 여기에서 아이디어를 얻은 Doug Cutting과 Mike Cafarella가 2002년에 Apache Nutch 프로젝트를 진행하던 중 하둡을 시작하게 됐습니다. 뉴욕 타임스 기사에 따르면 Hadoop이라는 이름은 Doug이 아들의 장난감 코끼리 이름에서 따온 것이라고 합니다.

몇 년이 지난 뒤 하둡은 Nutch에서 분할되어 나왔습니다. Nutch는 웹 크롤러 요소에 집중했지만, 하둡은 분산형 컴퓨팅 및 처리 부분을 담당하게 된 것입니다. Cutting이 Yahoo에 입사하고 2년 후인 2008년, Yahoo에서 하둡을 오픈 소스 프로젝트로 릴리스하였습니다. 2012년 11월에 Apache Software Foundation(ASF)에서 하둡을 Apache Hadoop이라는 이름으로 일반 대중에게 제공하게 되었습니다.

하둡은 어떤 영향을 미쳤나요?

하둡은 빅데이터 분야에서 중대한 발전이었습니다. 사실, 하둡은 현행 클라우드 데이터 레이크의 기초 토대로 인정받고 있습니다. Hadoop은 컴퓨팅 파워를 민주화하여 기업에서 무료, 오픈 소스 소프트웨어와 저렴한 상용 하드웨어를 사용해 확장할 수 있는 방식으로 빅데이터 세트를 분석, 쿼리할 수 있게 해준 역할을 했습니다.

이것이 중대한 의의가 있는 이유는 하둡 덕분에 당시까지 대세였던 상용(proprietary) 데이터 웨어하우스(DW) 솔루션과 폐쇄형 데이터 형식에 실질적인 대안을 제시해주었기 때문입니다.

하둡이 도입되면서 기업에서 엄청난 양의 데이터를 저장, 처리할 능력을 신속히 확보할 수 있게 되었고, 컴퓨팅 파워를 증가하고 내결함성, 데이터 관리 유연성, DW에 비해 저렴한 비용은 물론 뛰어난 확장성까지 얻게 되었습니다. 궁극적으로 Hadoop은 빅데이터 분석 분야의 향후 개발을 위해 길을 개척했다고 볼 수 있습니다. Apache Spark가 가장 대표적인 예입니다.

하둡은 어디에 사용하나요?

하둡의 경우, 사용 사례는 무궁무진합니다.

리테일

규모가 큰 기업은 그 어느 때보다도 많은 고객 데이터를 손에 쥐고 있습니다. 하지만 표면적으로는 서로 관계가 없는 듯한 방대한 데이터 속에서 상관 관계를 찾아내기 어려운 경우가 많습니다. 영국 리테일러 M&S는 하둡 기반 Cloudera Enterprise를 배포하고 나서, 결과에 감탄했습니다.

Cloudera는 데이터를 관리하고 처리하는 데 하둡 기반 지원과 서비스를 사용합니다. M&S는 클라우드 기반 플랫폼을 구현하고 얼마 지나지 않아 데이터를 성공적으로 활용하면서도 예측 분석 성능이 훨씬 향상되었다는 것을 느꼈습니다.

웨어하우스 사용 효율이 향상되었고 수요가 "갑자기" 폭증했을 때 따라가지 못하는 현상을 줄여 시장 경쟁에서 엄청난 우위를 얻었습니다.

Finance

하둡은 아마도 그 어떤 시스템보다도 금융 부문에 적합할 것입니다. 하둡 소프트웨어 프레임워크가 나온 지 얼마되지 않았던 초기에 위험 모델링과 관련된 고급 알고리즘을 처리하는 용도로 주로 사용되었습니다. 바로 이런 위험 관리만 있었더라면 2008년에 경기 침체로까지 이어진 신용 스왑 위기를 피하는 데 도움이 되었을 것입니다.

은행도 이 같은 원리가 고객 포트폴리오의 위험 관리에도 적용된다는 것을 깨달았습니다. 요즘에는 금융 기관이 금융 보안 관리와 고객 자산 성과를 개선할 목적으로 하둡을 구현하는 사례를 흔히 볼 수 있습니다. JPMorgan Chase도 하둡을 사용하여 전 세계에서 폭발적으로 증가하는 고객 데이터를 관리하는 금융 대기업 중 하나입니다.

의료 서비스

국가에서 운영하든, 민간에서 운영하든, 규모와 관계없이 모든 의료 기관은 방대한 데이터와 고객 정보를 처리해야 합니다. 하둡 프레임워크를 사용하면 의사, 간호사, 간병인이 필요할 때 정보에 쉽게 액세스할 수 있고, 실천 가능한 인사이트를 제공하는 데이터를 쉽게 집계할 수도 있습니다. 이는 공공 보건, 진단 및 치료 개선 등에 적용할 수 있습니다.

학계 및 연구 기관에서도 하둡 프레임워크를 사용해서 연구 활동을 촉진합니다. 암을 비롯한 유전 질환 분야를 예로 들어보겠습니다. 인간 유전체의 지도가 밝혀졌는데, 모두 합치면 30억에 가까운 염기쌍이 존재합니다. 이론적으로는 그 어떤 질병이든 치료할 수 있는 모든 것이 우리 눈앞에 펼쳐져 있습니다.

하지만 복잡한 관계를 파악하기 위해서는 하둡과 같은 시스템이 있어야 대량의 정보를 처리할 수 있습니다.

보안 및 법 집행

하둡은 국가 및 지역 보안의 효과를 향상하는 데도 도움이 됩니다. 여러 지역에서 발생하는 관련 범죄를 해결하려는 경우, 하둡 프레임워크로 두 개의 관계가 없는 듯한 사건을 연결하여 법 집행 기관의 절차를 간소화할 수 있습니다. 사건을 연결하는 데 걸리는 시간이 줄어들었기 때문에 법 집행 기관에서는 최대한 빠른 시일 내에 다른 기관과 국민에게 경고를 보낼 수 있습니다.

2013년에 미국 국가 보안국(NSA)에서는 오픈 소스 하둡 소프트웨어가 그동안 자신들이 사용했던 값비싼 솔루션보다 우수하다는 결론을 내렸습니다. 지금은 하둡 프레임워크를 사용해서 테러, 사이버 범죄 등의 위협을 탐지하는 데 도움을 받습니다.

하둡은 어떻게 작동하나요?

하둡은 상용 하드웨어의 클러스터에 방대한 데이터 세트를 분산할 수 있는 프레임워크입니다. 하둡의 처리는 여러 서버에서 동시에 병렬로 수행됩니다.

고객은 데이터와 프로그램을 하둡에 제출합니다. 간단히 말해, HDFS(하둡의 핵심 구성 요소)는 메타데이터와 분산형 파일 시스템을 처리합니다. 그런 다음, 하둡 MapReduce가 입력/출력 데이터를 처리하고 변환합니다. 마지막으로, YARN이 클러스터에 작업을 분산합니다.

하둡을 사용하는 고객은 높은 가용성과 장애 시점 탐지 기능을 기본으로 제공받아, 상용 리소스를 훨씬 효율적으로 사용할 수 있습니다. 또한, 고객은 연결된 비즈니스 시스템에서 쿼리를 수행할 때 빠르게 응답할 수 있습니다.

결론적으로, 하둡은 빅데이터 활용을 극대화하고 싶어 하는 기업에 비교적 간편한 솔루셔능ㄹ 제공합니다.

하둡은 어떤 언어로 작성되었나요?

하둡 프레임워크 자체는 대부분 Java를 기반으로 합니다. 다른 프로그래밍 언어로는 C로 작성한 네이티브 코드와 명령줄용 셸 스크립트를 사용합니다. 그러나 하둡 프로그램은 Python, C++ 등의 다양한 프로그래밍 언어로 작성할 수 있습니다. 따라서 프로그래머는 자신에게 익숙한 도구를 사용해서 유연하게 일할 수 있습니다.

하둡을 사용하는 방법

앞서 말씀드렸듯이, 하둡은 빅데이터를 관리해야 하는 조직에 간편한 솔루션을 제공합니다. 하지만 그렇다고 해서 언제나 간단히 사용할 수 있다는 것은 아닙니다. 위의 사용 사례에서 알 수 있듯이, 하둡 프레임워크의 구현 방식은 상당히 유연하게 선택할 수 있습니다.

비즈니스 애널리스트, 데이터 사이언티스트, 개발자가 하둡을 활용하는 방식은 조직과 목표에 따라 달라집니다.

하둡이 모든 기업에 적합한 것은 아니지만, 대부분 조직에서 하둡과의 관계를 새롭게 평가할 필요가 있습니다. 사업의 핵심 프로세스에서 방대한 데이터를 처리해야 하는 경우, 하둡은 요구 사항에 맞는 유연하고 경제적이면서도 확장 가능한 솔루션을 제공합니다. 그 이후부터는 사용자와 그 팀이 무엇을 상상하고, 어떤 기술적 능력을 갖추었느냐에 따라 활용도가 달라집니다.

하둡 쿼리 예시

하둡을 쿼리하는 방법의 예시는 다음과 같습니다.

Apache Hive

Apache Hive는 초기에 하둡으로 SQL을 쿼리하는 데 일반적으로 사용했던 솔루션이었습니다. 이 모듈은 MySQL의 동작, 구문, 인터페이스를 에뮬레이션하여 프로그래밍을 단순화합니다. Java API와 JDBC 드라이버가 내장되어 있기 때문에 Java 애플리케이션을 많이 사용한다면 좋은 옵션이 됩니다. Hive는 개발자에게 빠르고 간단한 솔루션을 제공하지만 다소 느리고 읽기 전용 기능만 제공하기 때문에 상당히 제한적입니다.

IBM BigSQL

IBM에서는 하둡에 고성능 대량 병렬 처리(MPP) SQL 엔진을 제공합니다. 안정적이고 안전한 환경에서 쉽게 사용할 수 있는 솔루션을 원하는 기업을 위한 쿼리 솔루션입니다. HDFS 데이터에 액세스하는 것 외에도, RDBMS, NoSQL 데이터베이스, WebHDFS 및 기타 데이터 소스에서 가져올 수 있습니다.

하둡 에코시스템이란 무엇입니까?

하둡이라는 용어는 일종의 보편 명사로 다음과 같은 다양한 의미가 있습니다.

전반적인 하둡 에코시스템, 즉 코어 모듈과 관련 하위 모듈을 둘 다 아우릅니다.
코어 하둡 모듈, 즉 Hadoop Distributed File System(HDFS), Yet Another Resource Negotiator(YARN), MapReduce와 Hadoop Common(아래 논의 내용 참조) 등을 말합니다. 이들이 전형적인 하둡 배포를 이루는 가장 기초적인 기본 요소입니다.
하둡 관련 하위 모듈: Apache Hive, Apache Impala, Apache Pig, Apache Zookeeper, Apache Flume 등. 이와 같이 관련된 여러 건의 소프트웨어를 사용하여 코어 하둡을 사용자 지정, 개선하거나 기능을 확장할 수 있습니다.

코어 하둡 모듈은 무엇입니까?

HDFS - Hadoop Distributed File System의 약자입니다. HDFS는 Java 기반 시스템의 일종으로, 클러스터 내 여러 노드에 걸쳐 대규모 데이터 세트를 내결함성 있는 방식으로 저장할 수 있게 해줍니다.
YARN - Yarn은 Yet Another Resource Negotiator의 약자입니다. YARN은 클러스터 리소스 관리, 작업 계획, 그리고 하둡에서 실행되는 작업 예약에 쓰입니다.
MapReduce - MapReduce는 프로그래밍 모델 겸 대규모 데이터 세트의 병렬식 처리를 위해 쓰이는 빅데이터 처리 엔진입니다. 원래 MapReduce가 하둡에서 이용할 수 있는 유일한 실행 엔진이었는데, 하둡에서 나중에 Apache Tez, Apache Spark 등과 같은 다른 엔진 지원도 추가했습니다.
Hadoop Common - Hadoop Common은 다른 Hadoop 모듈을 지원하는 여러 라이브러리와 유틸리티를 총망라한 일련의 서비스를 제공합니다.

하둡 에코시스템의 구성 요소는 무엇인가요?

하둡 에코시스템은 여러 가지 핵심 구성 요소로 이루어집니다.

HDFS(Hadoop Distributed File System) = 분산저장기술

하둡 분산형 파일 시스템에서 모든 데이터 스토리지가 시작되고 끝납니다. 이 구성 요소는 다양한 구조적 및 비구조적 데이터 노드에 걸쳐 대량의 데이터 세트를 관리합니다. 그와 동시에 메타데이터를 로그 파일의 형태로 보관합니다. HDFS의 보조 구성 요소는 NameNode, DataNode, 이렇게 두 가지가 있습니다.

NameNode

Hadoop HDFS의 마스터 데몬은 NameNode입니다. 이 구성 요소는 파일 시스템 네임스페이스를 관리하고 이 파일들에 대한 클라이언트 액세스를 제어합니다. NameNode는 마스터 노드라고도 하는데, 블록 번호와 위치 등과 같은 메타데이터를 저장합니다. 주로 파일과 디렉터리로 구성되며 파일 이름 지정, 종료, 열기 등의 파일 시스템 명령을 실행합니다.

DataNode

두 번째 구성 요소는 DataNode라는 슬레이브 데몬입니다. 이 HDFS 구성 요소는 클라이언트가 요청한 읽기 및 쓰기 함수를 실행하면서 실제 데이터 또는 블록을 저장합니다. 즉, DataNode도 마스터 NameNode의 명령에 따라 복제본 생성, 삭제 및 복제를 담당합니다.

DataNode는 두 개의 시스템 파일로 구성됩니다. 하나는 데이터에 사용하고, 나머지 하나는 블록 메타데이터를 기록하는 데 사용합니다. 애플리케이션이 시작되면 마스터와 슬레이브 데몬 사이에 핸드셰이크를 하여 네임스페이스와 소프트웨어 버전을 확인합니다. 불일치가 발견되면 자동으로 DataNode가 해제됩니다.

MapReduce = 분산처리 기술

하둡 MapReduce는 Hadoop 에코시스템의 핵심 처리 구성 요소입니다. 이 소프트웨어는 방대한 용량의 구조적, 비구조적 데이터를 처리할 때 애플리케이션을 쉽게 작성할 수 있는 프레임워크를 제공합니다. 주로 상용 하드웨어의 다양한 노드에서 데이터를 병렬 처리하도록 지원하는 방식을 사용합니다.

MapReduce는 클라이언트의 작업 일정을 처리합니다. 사용자가 요청한 작업은 독립적인 작업과 프로세스로 나뉩니다. 그 다음에는 MapReduce 작업을 상용 서버에 있는 모든 클러스터와 노드에서 하위 작업으로 잘게 쪼갭니다.

이 과정은 Map 단계와 Reduce 단계, 이렇게 두 가지로 구성됩니다. Map 단계에서는 데이터 세트가 키/값 쌍으로 나뉘는 다른 데이터 세트로 변환됩니다. 두 번째 Reduce 단계에서는 InputFormat 클래스를 통해 프로그래머에 따라 출력을 변환합니다.

프로그래머는 MapReduce에서 두 가지 기본 함수를 지정합니다. Map 함수는 데이터 처리의 비즈니스 로직입니다. Reduce 함수는 map 함수의 중간 데이터 출력을 요약, 집계하여 최종 결과를 산출합니다.

YARN

간단히 말해서, 하둡 YARN은 MapReduce의 성능이 개선된 새로운 버전입니다. 하지만 그것만으로는 정확히 설명할 수 없습니다. YARN은 작업 시퀀스 예약과 처리, 실행에도 사용하기 때문입니다. 하지만 YARN은 하둡의 리소스 관리 계층이며, 이곳에서 각 작업이 별도의 Java 애플리케이션으로 데이터에 대해 실행됩니다.

하둡 프레임워크의 운영 체제 역할을 하는 YARN은 단일 플랫폼에서 일괄 처리, f 데이터 처리 등의 작업을 수행할 수 있습니다. YARN은 MapReduce보다 훨씬 성능이 개선되었기 때문에 프로그래머들이 실시간 인터랙티브 스트리밍 애플리케이션을 구축할 수 있습니다.

YARN을 사용하는 프로그래머는 동일한 클러스터에서 필요한 만큼 여러 애플리케이션을 실행할 수 있습니다. 운영 관리와 시스테 리소스 공유에 안전하고 안정적인 기반을 제공함으로써, 최대의 효율과 유연성을 발휘하도록 합니다.

보편적인 하둡 관련 소프트웨어의 몇 가지 예를 들면 무엇이 있습니까?

이외에 엄밀히 말해 코어 하둡 모듈에 속한다고는 볼 수 없지만 이런 모듈과 함께 쓰일 때가 많은 대중적인 패키지가 몇 가지 있습니다.

Apache Hive는 하둡에서 실행되는 데이터 웨어하우스 소프트웨어로서 사용자가 HiveQL이라는 SQL 유사 쿼리 언어를 사용해 HDFS 데이터를 다루도록 지원합니다.
Apache Impala는 Apache Hadoop에 적합한 오픈 소스, 네이티브 분석 데이터베이스입니다.
Apache Pig는 보통 MapReduce를 통한 추상화로서 하둡과 함께 쓰여 데이터의 흐름에 따라 표시되는 대규모 데이터 세트를 분석하는 데 쓰이는 툴입니다. Pig은 조인, 필터링, 정렬, 로드 등의 작업을 지원합니다.
Apache Zookeeper는 고도로 안정적인 분산형 처리를 지원하는 중앙 집중형 서비스입니다.
Apache Sqoop은 Apache Hadoop과 구조적 데이터스토어(예: 관계형 데이터베이스) 사이에서 벌크 데이터를 효율적으로 전송하도록 고안한 도구입니다.
Apache Oozie는 Apache Hadoop 작업을 관리하기 위한 워크플로 스케줄러 시스템입니다. Oozie 워크플로 작업은 DAG(Directed Acyclical Graph) 작업입니다.

분석에 하둡을 사용하는 방법

데이터 소스와 조직의 요구 사항에 따라, 하둡 프레임워크를 분석에 활용하는 방법은 크게 세 가지가 있습니다.

기업 데이터 센터에 배포

필수적인 기존 리소스가 있는 기업에서 시간 효율적이고 재정적으로도 안전한 옵션으로 선택하는 경우가 많습니다. 그렇지 않은 경우, 기술 장비를 설치하고 필요한 IT 인력을 충원하다 보면 재정과 팀 리소스가 과하게 늘어날 수 있습니다. 기업에서 이 옵션을 사용하면 데이터 보안과 보호를 더욱 잘 관리할 수 있게 됩니다.

클라우드 마이그레이션

구현 속도를 높이고, 선불로 내는 비용과 유지관리 요구 사항을 줄이고자 하는 기업은 클라우드 기반 서비스를 활용하려고 할 것입니다. 클라우드 공급업체에서는 클라우드에 존재하는 상용 하드웨어에서 데이터와 분석이 실행됩니다. 이들 서비스는 적절한 요금으로 빅데이터 처리를 간소화하지만, 약간의 단점도 존재합니다.

첫째, 공개 인터넷에 있는 모든 것은 해커 등의 먹잇감이 되기 쉽습니다. 둘째, 인터넷과 네트워크 공급업체에서 서비스가 중단되면 업무 시스템이 마비될 수 있습니다. 기존 네트워크 사용자의 경우, 하둡에서 Lakehow 아키텍처로 마이그레이션하는 등의 조치가 필요할 수 있습니다.

온프레미스 공급업체

가동 시간, 개인정보 보호, 보안을 강화하고 싶다면 온프레미스 하둡 공급업체에서 이 모든 것을 찾을 수 있을 것입니다. 이들 공급업체는 두 가지의 장점을 모두 제공합니다. 모든 장비, 소프트웨어, 서비스를 제공하여 프로세스를 간소화할 수 있습니다. 하지만 인프라가 온프레미스에 있기 때문에 대기업에서 데이터 센터를 운영하면서 얻는 모든 장점을 누릴 수 있습니다.

하둡의 장점은 무엇입니까?

확장성 - 기존 시스템은 데이터 스토리지를 제한하지만, 하둡은 분산형 환경에서 작동하기 때문에 확장할 수 있습니다. 이 때문에 데이터 설계자가 하둡에서 일찍부터 데이터 레이크를 구축할 수 있습니다. 데이터 레이크의 이력과 발전 과정을 자세히 알아보세요.
복원력 - HDFS(Hadoop Distributed File System)는 근본적으로 복원력이 있습니다. 하둡 클러스터 내 노드에 저장된 데이터는 클러스터의 다른 노드에도 복제되어 하드웨어나 소프트웨어 오류 가능성에 대비합니다. 이러한 의도적인 중복 설계 덕분에 내결함성이 보장됩니다. 노드 한 개가 다운되더라도 클러스터 내에 항상 그 데이터의 백업본이 준비됩니다.
유연성 - 기존 관계형 데이터베이스 관리 시스템과는 달리, 하둡을 다룰 때는 형식에 구애받지 않고 데이터를 저장할 수 있습니다. 반구조적, 비구조적 형식도 마찬가지입니다. 하둡을 이용하면 기업에서 새로운 데이터 소스에 손쉽게 액세스하여 여러 가지 데이터 유형을 활용할 수 있습니다.

하둡 아키텍처의 문제점

복잡함 - 하둡은 저수준 Java 기반 프레임워크라서 최종 사용자가 다루기에는 지나치게 복잡하고 어려울 수 있습니다. 하둡 아키텍처는 상당한 수준의 전문 지식과 리소스가 있어야 설치, 유지하고 업그레이드할 수 있기도 합니다.
성능 - 하둡은 디스크로부터 읽기, 쓰기를 자주 이용하여 연산을 수행하는데, 이렇게 하면 Apache Spark와 같이 데이터를 최대한 메모리 내에 저장하고 메모리 내에서 처리하고자 하는 프레임워크에 비해 시간이 오래 걸리고 비효율적입니다.
장기적 실용성 - 지난 2019년에는 하둡과 관련해 참 많은 일이 벌어졌고 온 세상이 주목했습니다. Google에서 2004년에 발표한 중대한 MapReduce 관련 논문은 Apache Hadoop의 제작을 뒷받침하는 역할을 하였고, 그러면서 MapReduce 사용을 전면 중단하게 되었습니다(Google의 기술 인프라 사업부 선임 부사장(SVP) Urs Hölzle의 트윗 참조). 또한 하둡과 관련해 몇 차례 세간의 이목을 집중시킨 합병과 인수 건도 있었습니다. 또한 지난 2020년에는 하둡의 대표적인 제공업체에서 자사 제품을 하둡 중심에서 벗어나 다른 방향을 지향하기로 했는데, 이는 이제 하둡은 "기술이라기보다 하나의 철학에 가깝기 때문"이라고 밝혔습니다. 마지막으로, 2021년 한 해 동안 흥미로운 변화가 많이 일어났습니다. 지난 2021년 4월에는 Apache Software Foundation에서 하둡 에코시스템에서 열 개 프로젝트를 사용 중단한다고 발표했습니다. 그리고 2021년 6월에는 Cloudera가 유한회사로 전환하는 데 동의했습니다. 이 결정이 하둡 사용자에게 어떤 영향을 미칠지는 아직 두고 볼 일입니다. 이렇게 우려되는 상황이 많아진 데다 디지털화가 점점 절실해지면서 수많은 기업이 하둡과의 관계를 다시 생각해보게 되었습니다.

어떤 기업에서 하둡을 사용하나요?

성공적인 다국적 기업과 대기업에서는 하둡을 채택하는 것이 표준이 되어 가고 있습니다. 현재 하둡을 사용하는 기업의 예시는 다음과 같습니다.

Adobe - 소프트웨어 및 서비스 공급업체인 Adobe는 데이터 스토리지와 다른 서비스에 Apache Hadoop과 HBase를 사용합니다.
eBay - 검색 엔진 최적화와 연구에 하둡 프레임워크를 사용합니다.
A9 - 검색 엔진 및 검색 관련 광고와 관련된 기술을 담당하는 Amazon 자회사입니다.
LinkedIn - 가장 인기 있는 소셜 및 전문가 네트워킹 사이트 중 하나인 LinkedIn은 하둡, Hive, Kafka, Avro, DataFu 등을 비롯한 다양한 Apache 모듈을 사용합니다.
Spotify - Spotify는 스웨덴의 음악 스트리밍 대기업으로, 콘텐츠 행성과 음악 청취 추천외에도 분석, 보고에 하둡 프레임워크를 사용합니다.
Facebook - 이 소셜 미디어 대기업은 데이터 세트 용량이 하루 0.5PB씩 늘어나는 것으로 보고되었으며, 세계 최대 규모로 하둡 클러스터를 관리하고 있습니다.
InMobi - 이 모바일 마케팅 플랫폼은 분석, 데이터 사이언스, 머신 러닝과 관련된 HDFS 및 Apache Pig/MRUnit 작업을 활용합니다.

하둡은 비용이 얼마나 드나요?

하둡 프레임워크 자체는 오픈 소스 Java 기반 애플리케이션입니다. 즉, 다른 빅데이터 애플리케이션과 달리 무료로 사용할 수 있습니다. 물론, 필수적인 상용 소프트웨어 비용은 규모에 따라 달라집니다.

하둡 프레임워크를 구현하는 서비스의 경우, 다양한 요금 옵션이 있습니다.

노드 기준 - 가장 일반적
용량(TB) 기준
구독 전용 기술 지원을 제공하거나 제공하지 않는 프리미엄(freemium) 제품
모든 하드웨어와 소프트웨어를 포함한 올인원 패키지
세분화된 요금 옵션을 제공하는 클라우드 기반 서비스는 기본적으로 필요한 만큼 또는 사용한 만큼만 요금을 지불하면 됩니다.

참고 : https://www.databricks.com/kr/glossary/hadoop
https://blog.naver.com/PostView.nhn?isHttpsRedirect=true&blogId=acornedu&logNo=220957220179&categoryNo=1&parentCategoryNo=0

권성현

개발일지

이전 포스트

[JVM/Java] Apache & Tomcat을 알아보자

다음 포스트

하둡

업무