"하둡"이란 무엇을 의미할까요? 더 중요한 것은, "하둡"은 무엇의 약자일까요? 사실, 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)을 뜻합니다. 하둡 기술은 바로 이런 장점을 개발자에게 제공합니다. 즉, 객체 지향적 작업을 병렬 분산하여 고가용성을 확보할 수 있습니다.
Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 플랫폼으로 빅데이터 애플리케이션용 데이터 처리와 스토리지를 관리하는 역할을 합니다. 하둡 플랫폼은 컴퓨터 클러스터 내 여러 노드에 걸쳐 하둡 빅데이터와 분석 작업을 분배하며, 그 과정에서 작업을 병렬식으로 실행 가능한 작은 크기의 워크로드로 분해합니다.
하둡은 구조적, 비구조적 데이터를 처리할 수 있으며 단 한 대의 서버에서 시스템 수천 대 규모로 안정적으로 확장합니다.
하둡 프레임워크에서 코드는 대부분 Java로 작성되지만, 일부 네이티브 코드는 C를 기반으로 합니다. 또한, 명령줄 유틸리티는 셸 스크립트로 작성되는 것이 일반적입니다. 하둡 MapReduce의 경우, Java를 가장 흔히 사용하지만 사용자는 하둡 스트리밍과 같은 모듈을 통해 원하는 프로그래밍 언어로 맵을 구현하고 함수를 줄일 수 있습니다.
하둡은 데이터 스토리지나 관계형 데이터베이스를 위한 솔루션이 아닙니다. 대신 오픈 소스 프레임워크로써, 실시간으로 엄청난 양의 데이터를 동시에 처리하는 것을 목적으로 합니다.
데이터는 HDFS에 저장됩니다. 그러나 비구조적이어서 관계형 데이터베이스로 간주하기 어렵습니다. 사실, 하둡을 사용하면 데이터를 비구조적, 반구조적, 구조적 형식으로 저장할 수 있습니다. 기업에서는 비즈니스 요구 사항을 충족하고 그 이상까지 기대할 수 있는 방식으로 더욱 유연하게 빅데이터를 처리할 수 있습니다.
기술적으로 하둡은 SQL이나 RDBMS 등의 데이터베이스와는 다릅니다. 대신, 하둡 프레임워크는 사용자에게 다양한 데이터베이스 유형에 대한 처리 솔루션을 제공합니다.
하둡은 기업이 단시간에 방대한 데이터를 처리하도록 도와주는 소프트웨어 에코시스템입니다. 이런 작업은 대규모로 병렬 컴퓨터 처리를 활용하기 때문에 가능합니다. Apache HBase와 같은 여러 데이터베이스는 수백, 수천 개의 상용 서버에 저장된 데이터 노드 클러스터에 흩어져 있습니다.
Apache Hadoop은 Yahoo나 Google과 같은 검색 엔진이 막 출발한 시점에서 끊임없이 늘어나는 빅데이터를 처리하고 웹 결과를 더 빨리 제공해야 한다는 필요성이 절실해지면서 탄생했습니다.
당시 Google의 MapReduce라는 프로그래밍 모델이 있었는데, 이 모델은 하나의 애플리케이션을 여러 부분으로 나누어 서로 다른 여러 노드에서 실행되도록 하는 방식을 취했습니다. 여기에서 아이디어를 얻은 Doug Cutting과 Mike Cafarella가 2002년에 Apache Nutch 프로젝트를 진행하던 중 하둡을 시작하게 됐습니다. 뉴욕 타임스 기사에 따르면 Hadoop이라는 이름은 Doug이 아들의 장난감 코끼리 이름에서 따온 것이라고 합니다.
몇 년이 지난 뒤 하둡은 Nutch에서 분할되어 나왔습니다. Nutch는 웹 크롤러 요소에 집중했지만, 하둡은 분산형 컴퓨팅 및 처리 부분을 담당하게 된 것입니다. Cutting이 Yahoo에 입사하고 2년 후인 2008년, Yahoo에서 하둡을 오픈 소스 프로젝트로 릴리스하였습니다. 2012년 11월에 Apache Software Foundation(ASF)에서 하둡을 Apache Hadoop이라는 이름으로 일반 대중에게 제공하게 되었습니다.
하둡은 빅데이터 분야에서 중대한 발전이었습니다. 사실, 하둡은 현행 클라우드 데이터 레이크의 기초 토대로 인정받고 있습니다. Hadoop은 컴퓨팅 파워를 민주화하여 기업에서 무료, 오픈 소스 소프트웨어와 저렴한 상용 하드웨어를 사용해 확장할 수 있는 방식으로 빅데이터 세트를 분석, 쿼리할 수 있게 해준 역할을 했습니다.
이것이 중대한 의의가 있는 이유는 하둡 덕분에 당시까지 대세였던 상용(proprietary) 데이터 웨어하우스(DW) 솔루션과 폐쇄형 데이터 형식에 실질적인 대안을 제시해주었기 때문입니다.
하둡이 도입되면서 기업에서 엄청난 양의 데이터를 저장, 처리할 능력을 신속히 확보할 수 있게 되었고, 컴퓨팅 파워를 증가하고 내결함성, 데이터 관리 유연성, DW에 비해 저렴한 비용은 물론 뛰어난 확장성까지 얻게 되었습니다. 궁극적으로 Hadoop은 빅데이터 분석 분야의 향후 개발을 위해 길을 개척했다고 볼 수 있습니다. Apache Spark가 가장 대표적인 예입니다.
규모가 큰 기업은 그 어느 때보다도 많은 고객 데이터를 손에 쥐고 있습니다. 하지만 표면적으로는 서로 관계가 없는 듯한 방대한 데이터 속에서 상관 관계를 찾아내기 어려운 경우가 많습니다. 영국 리테일러 M&S는 하둡 기반 Cloudera Enterprise를 배포하고 나서, 결과에 감탄했습니다.
Cloudera는 데이터를 관리하고 처리하는 데 하둡 기반 지원과 서비스를 사용합니다. M&S는 클라우드 기반 플랫폼을 구현하고 얼마 지나지 않아 데이터를 성공적으로 활용하면서도 예측 분석 성능이 훨씬 향상되었다는 것을 느꼈습니다.
웨어하우스 사용 효율이 향상되었고 수요가 "갑자기" 폭증했을 때 따라가지 못하는 현상을 줄여 시장 경쟁에서 엄청난 우위를 얻었습니다.
하둡은 아마도 그 어떤 시스템보다도 금융 부문에 적합할 것입니다. 하둡 소프트웨어 프레임워크가 나온 지 얼마되지 않았던 초기에 위험 모델링과 관련된 고급 알고리즘을 처리하는 용도로 주로 사용되었습니다. 바로 이런 위험 관리만 있었더라면 2008년에 경기 침체로까지 이어진 신용 스왑 위기를 피하는 데 도움이 되었을 것입니다.
은행도 이 같은 원리가 고객 포트폴리오의 위험 관리에도 적용된다는 것을 깨달았습니다. 요즘에는 금융 기관이 금융 보안 관리와 고객 자산 성과를 개선할 목적으로 하둡을 구현하는 사례를 흔히 볼 수 있습니다. JPMorgan Chase도 하둡을 사용하여 전 세계에서 폭발적으로 증가하는 고객 데이터를 관리하는 금융 대기업 중 하나입니다.
국가에서 운영하든, 민간에서 운영하든, 규모와 관계없이 모든 의료 기관은 방대한 데이터와 고객 정보를 처리해야 합니다. 하둡 프레임워크를 사용하면 의사, 간호사, 간병인이 필요할 때 정보에 쉽게 액세스할 수 있고, 실천 가능한 인사이트를 제공하는 데이터를 쉽게 집계할 수도 있습니다. 이는 공공 보건, 진단 및 치료 개선 등에 적용할 수 있습니다.
학계 및 연구 기관에서도 하둡 프레임워크를 사용해서 연구 활동을 촉진합니다. 암을 비롯한 유전 질환 분야를 예로 들어보겠습니다. 인간 유전체의 지도가 밝혀졌는데, 모두 합치면 30억에 가까운 염기쌍이 존재합니다. 이론적으로는 그 어떤 질병이든 치료할 수 있는 모든 것이 우리 눈앞에 펼쳐져 있습니다.
하지만 복잡한 관계를 파악하기 위해서는 하둡과 같은 시스템이 있어야 대량의 정보를 처리할 수 있습니다.
하둡은 국가 및 지역 보안의 효과를 향상하는 데도 도움이 됩니다. 여러 지역에서 발생하는 관련 범죄를 해결하려는 경우, 하둡 프레임워크로 두 개의 관계가 없는 듯한 사건을 연결하여 법 집행 기관의 절차를 간소화할 수 있습니다. 사건을 연결하는 데 걸리는 시간이 줄어들었기 때문에 법 집행 기관에서는 최대한 빠른 시일 내에 다른 기관과 국민에게 경고를 보낼 수 있습니다.
2013년에 미국 국가 보안국(NSA)에서는 오픈 소스 하둡 소프트웨어가 그동안 자신들이 사용했던 값비싼 솔루션보다 우수하다는 결론을 내렸습니다. 지금은 하둡 프레임워크를 사용해서 테러, 사이버 범죄 등의 위협을 탐지하는 데 도움을 받습니다.
하둡은 상용 하드웨어의 클러스터에 방대한 데이터 세트를 분산할 수 있는 프레임워크입니다. 하둡의 처리는 여러 서버에서 동시에 병렬로 수행됩니다.
고객은 데이터와 프로그램을 하둡에 제출합니다. 간단히 말해, HDFS(하둡의 핵심 구성 요소)는 메타데이터와 분산형 파일 시스템을 처리합니다. 그런 다음, 하둡 MapReduce가 입력/출력 데이터를 처리하고 변환합니다. 마지막으로, YARN이 클러스터에 작업을 분산합니다.
하둡을 사용하는 고객은 높은 가용성과 장애 시점 탐지 기능을 기본으로 제공받아, 상용 리소스를 훨씬 효율적으로 사용할 수 있습니다. 또한, 고객은 연결된 비즈니스 시스템에서 쿼리를 수행할 때 빠르게 응답할 수 있습니다.
결론적으로, 하둡은 빅데이터 활용을 극대화하고 싶어 하는 기업에 비교적 간편한 솔루셔능ㄹ 제공합니다.
하둡 프레임워크 자체는 대부분 Java를 기반으로 합니다. 다른 프로그래밍 언어로는 C로 작성한 네이티브 코드와 명령줄용 셸 스크립트를 사용합니다. 그러나 하둡 프로그램은 Python, C++ 등의 다양한 프로그래밍 언어로 작성할 수 있습니다. 따라서 프로그래머는 자신에게 익숙한 도구를 사용해서 유연하게 일할 수 있습니다.
앞서 말씀드렸듯이, 하둡은 빅데이터를 관리해야 하는 조직에 간편한 솔루션을 제공합니다. 하지만 그렇다고 해서 언제나 간단히 사용할 수 있다는 것은 아닙니다. 위의 사용 사례에서 알 수 있듯이, 하둡 프레임워크의 구현 방식은 상당히 유연하게 선택할 수 있습니다.
비즈니스 애널리스트, 데이터 사이언티스트, 개발자가 하둡을 활용하는 방식은 조직과 목표에 따라 달라집니다.
하둡이 모든 기업에 적합한 것은 아니지만, 대부분 조직에서 하둡과의 관계를 새롭게 평가할 필요가 있습니다. 사업의 핵심 프로세스에서 방대한 데이터를 처리해야 하는 경우, 하둡은 요구 사항에 맞는 유연하고 경제적이면서도 확장 가능한 솔루션을 제공합니다. 그 이후부터는 사용자와 그 팀이 무엇을 상상하고, 어떤 기술적 능력을 갖추었느냐에 따라 활용도가 달라집니다.
하둡을 쿼리하는 방법의 예시는 다음과 같습니다.
Apache Hive는 초기에 하둡으로 SQL을 쿼리하는 데 일반적으로 사용했던 솔루션이었습니다. 이 모듈은 MySQL의 동작, 구문, 인터페이스를 에뮬레이션하여 프로그래밍을 단순화합니다. Java API와 JDBC 드라이버가 내장되어 있기 때문에 Java 애플리케이션을 많이 사용한다면 좋은 옵션이 됩니다. Hive는 개발자에게 빠르고 간단한 솔루션을 제공하지만 다소 느리고 읽기 전용 기능만 제공하기 때문에 상당히 제한적입니다.
IBM에서는 하둡에 고성능 대량 병렬 처리(MPP) SQL 엔진을 제공합니다. 안정적이고 안전한 환경에서 쉽게 사용할 수 있는 솔루션을 원하는 기업을 위한 쿼리 솔루션입니다. HDFS 데이터에 액세스하는 것 외에도, RDBMS, NoSQL 데이터베이스, WebHDFS 및 기타 데이터 소스에서 가져올 수 있습니다.
하둡이라는 용어는 일종의 보편 명사로 다음과 같은 다양한 의미가 있습니다.
하둡 에코시스템은 여러 가지 핵심 구성 요소로 이루어집니다.
하둡 분산형 파일 시스템에서 모든 데이터 스토리지가 시작되고 끝납니다. 이 구성 요소는 다양한 구조적 및 비구조적 데이터 노드에 걸쳐 대량의 데이터 세트를 관리합니다. 그와 동시에 메타데이터를 로그 파일의 형태로 보관합니다. HDFS의 보조 구성 요소는 NameNode, DataNode, 이렇게 두 가지가 있습니다.
Hadoop HDFS의 마스터 데몬은 NameNode입니다. 이 구성 요소는 파일 시스템 네임스페이스를 관리하고 이 파일들에 대한 클라이언트 액세스를 제어합니다. NameNode는 마스터 노드라고도 하는데, 블록 번호와 위치 등과 같은 메타데이터를 저장합니다. 주로 파일과 디렉터리로 구성되며 파일 이름 지정, 종료, 열기 등의 파일 시스템 명령을 실행합니다.
두 번째 구성 요소는 DataNode라는 슬레이브 데몬입니다. 이 HDFS 구성 요소는 클라이언트가 요청한 읽기 및 쓰기 함수를 실행하면서 실제 데이터 또는 블록을 저장합니다. 즉, DataNode도 마스터 NameNode의 명령에 따라 복제본 생성, 삭제 및 복제를 담당합니다.
DataNode는 두 개의 시스템 파일로 구성됩니다. 하나는 데이터에 사용하고, 나머지 하나는 블록 메타데이터를 기록하는 데 사용합니다. 애플리케이션이 시작되면 마스터와 슬레이브 데몬 사이에 핸드셰이크를 하여 네임스페이스와 소프트웨어 버전을 확인합니다. 불일치가 발견되면 자동으로 DataNode가 해제됩니다.
하둡 MapReduce는 Hadoop 에코시스템의 핵심 처리 구성 요소입니다. 이 소프트웨어는 방대한 용량의 구조적, 비구조적 데이터를 처리할 때 애플리케이션을 쉽게 작성할 수 있는 프레임워크를 제공합니다. 주로 상용 하드웨어의 다양한 노드에서 데이터를 병렬 처리하도록 지원하는 방식을 사용합니다.
MapReduce는 클라이언트의 작업 일정을 처리합니다. 사용자가 요청한 작업은 독립적인 작업과 프로세스로 나뉩니다. 그 다음에는 MapReduce 작업을 상용 서버에 있는 모든 클러스터와 노드에서 하위 작업으로 잘게 쪼갭니다.
이 과정은 Map 단계와 Reduce 단계, 이렇게 두 가지로 구성됩니다. Map 단계에서는 데이터 세트가 키/값 쌍으로 나뉘는 다른 데이터 세트로 변환됩니다. 두 번째 Reduce 단계에서는 InputFormat 클래스를 통해 프로그래머에 따라 출력을 변환합니다.
프로그래머는 MapReduce에서 두 가지 기본 함수를 지정합니다. Map 함수는 데이터 처리의 비즈니스 로직입니다. Reduce 함수는 map 함수의 중간 데이터 출력을 요약, 집계하여 최종 결과를 산출합니다.
간단히 말해서, 하둡 YARN은 MapReduce의 성능이 개선된 새로운 버전입니다. 하지만 그것만으로는 정확히 설명할 수 없습니다. YARN은 작업 시퀀스 예약과 처리, 실행에도 사용하기 때문입니다. 하지만 YARN은 하둡의 리소스 관리 계층이며, 이곳에서 각 작업이 별도의 Java 애플리케이션으로 데이터에 대해 실행됩니다.
하둡 프레임워크의 운영 체제 역할을 하는 YARN은 단일 플랫폼에서 일괄 처리, f 데이터 처리 등의 작업을 수행할 수 있습니다. YARN은 MapReduce보다 훨씬 성능이 개선되었기 때문에 프로그래머들이 실시간 인터랙티브 스트리밍 애플리케이션을 구축할 수 있습니다.
YARN을 사용하는 프로그래머는 동일한 클러스터에서 필요한 만큼 여러 애플리케이션을 실행할 수 있습니다. 운영 관리와 시스테 리소스 공유에 안전하고 안정적인 기반을 제공함으로써, 최대의 효율과 유연성을 발휘하도록 합니다.
이외에 엄밀히 말해 코어 하둡 모듈에 속한다고는 볼 수 없지만 이런 모듈과 함께 쓰일 때가 많은 대중적인 패키지가 몇 가지 있습니다.
데이터 소스와 조직의 요구 사항에 따라, 하둡 프레임워크를 분석에 활용하는 방법은 크게 세 가지가 있습니다.
필수적인 기존 리소스가 있는 기업에서 시간 효율적이고 재정적으로도 안전한 옵션으로 선택하는 경우가 많습니다. 그렇지 않은 경우, 기술 장비를 설치하고 필요한 IT 인력을 충원하다 보면 재정과 팀 리소스가 과하게 늘어날 수 있습니다. 기업에서 이 옵션을 사용하면 데이터 보안과 보호를 더욱 잘 관리할 수 있게 됩니다.
구현 속도를 높이고, 선불로 내는 비용과 유지관리 요구 사항을 줄이고자 하는 기업은 클라우드 기반 서비스를 활용하려고 할 것입니다. 클라우드 공급업체에서는 클라우드에 존재하는 상용 하드웨어에서 데이터와 분석이 실행됩니다. 이들 서비스는 적절한 요금으로 빅데이터 처리를 간소화하지만, 약간의 단점도 존재합니다.
첫째, 공개 인터넷에 있는 모든 것은 해커 등의 먹잇감이 되기 쉽습니다. 둘째, 인터넷과 네트워크 공급업체에서 서비스가 중단되면 업무 시스템이 마비될 수 있습니다. 기존 네트워크 사용자의 경우, 하둡에서 Lakehow 아키텍처로 마이그레이션하는 등의 조치가 필요할 수 있습니다.
가동 시간, 개인정보 보호, 보안을 강화하고 싶다면 온프레미스 하둡 공급업체에서 이 모든 것을 찾을 수 있을 것입니다. 이들 공급업체는 두 가지의 장점을 모두 제공합니다. 모든 장비, 소프트웨어, 서비스를 제공하여 프로세스를 간소화할 수 있습니다. 하지만 인프라가 온프레미스에 있기 때문에 대기업에서 데이터 센터를 운영하면서 얻는 모든 장점을 누릴 수 있습니다.
성공적인 다국적 기업과 대기업에서는 하둡을 채택하는 것이 표준이 되어 가고 있습니다. 현재 하둡을 사용하는 기업의 예시는 다음과 같습니다.
하둡 프레임워크 자체는 오픈 소스 Java 기반 애플리케이션입니다. 즉, 다른 빅데이터 애플리케이션과 달리 무료로 사용할 수 있습니다. 물론, 필수적인 상용 소프트웨어 비용은 규모에 따라 달라집니다.
하둡 프레임워크를 구현하는 서비스의 경우, 다양한 요금 옵션이 있습니다.
참고 : https://www.databricks.com/kr/glossary/hadoop
https://blog.naver.com/PostView.nhn?isHttpsRedirect=true&blogId=acornedu&logNo=220957220179&categoryNo=1&parentCategoryNo=0