Hadoop 플랫폼의 주요 벤더인 Hortonworks는 하둡을 이렇게 정의.범용 하드웨어로 구축된 컴퓨터 클러스터의 아주 방대한 데이터 세트틀 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼오픈 소스 한대의 PC가 아닌 컴퓨터 클러스터에서 작동하는 소프트웨어 묶
https://www.softwaretestingclass.com/introduction-to-hadoop-architecture-and-components/Hadoop 분산 파일 시스템빅데이터를 클러스터의 컴퓨터들에 분산 저장하는 시스템.데이터의 여분 복사본
클러스터의 리소스를 관리하는 또 하나의 방법.YARN과 협업이 가능하다.Hadoop 생태계에서 가장 흥미로운 기술.Spark는 YARN이나 Mesos중 어느 쪽을 기반으로 하든 데이터에 쿼리를 실행할 수 있음.Pyhon, Java, Scala를 사용해 스크립트를 작성.
Zookeeper는 클러스터의 모든 것을 조직화하는 기술.어떤 노드가 살아있는지 추적할 수 있고 여러 애플리케이션이 사용하는 클러스터의 공유 상태를 안정적으로 확인할 수 있다.많은 애플리케이션이 Zookeeper에 의존. \- 그래서 어떤 노드가 다운되더라도 일관성
Hive 기술을 통해 hadoop 클러스터를 관계형 데이터베이스처럼 사용할 수 있다.SQL을 사용해 Hadoop 클러스터에 걸쳐있는 데이터를 쿼리하는 간단하고 강력한 도구.(구조화된 쿼리 언어)HDFS 클러스터 전체에 걸쳐 저장된 데이터에 표준 SQL 쿼리를 실행. \
관계형 데이터베이스에서는 Schema on Write 개념을 사용한다. \- 데이터베이스에 데이터를 입력하기전에 스키마를 정의.데이터를 디스크에 저장할 때 이 스키마대로 시행.Hive는 구조화되지 않은 데이터를 가져와서 읽는 순간에 스키마를 적용한다. \- ex)
Hive는 Hadoop 클러스터를 관계형 데이터베이스처럼 사용하지만 실제로 데이터베이스를 갖는 것은 아니었다. 그러나 만약 MySQL과 같은 진짜 관계형 데이터베이스를 갖고 있고 Hadoop 클러스터에 데이터를 불러오거나 내보내고 싶을 수도 있을 때 Sqoop을 활용하
빅데이터를 전체 클러스터에 분산해 안정적으로 저장하여 애플리케이션이 그 데이터를 신속하게 액세스해 분석할 수 있게함.HDFS는 대용량 파일들을 다루기 위해 만들어짐.대용량 파일들을 작은 조각으로 나누어 클러스터 전체에 걸쳐 분산시키는데 최적화되어있다. \- 대용량 파
MapReduce는 HDFS, YARN과 함께 제공되는 Hadoop의 핵심 기술.Hadoop에 내재된 기능이며 클러스터에 데이터의 처리를 분배.MapReduce는 데이터를 파티션으로 나눠서 클러스터에 걸쳐 병렬 처리되도록 한다매핑은 기본적으로 데이터를 변형시킨다즉 데이
매퍼가 키-값 쌍을 추출셔플과 정렬은 각 고유 키와 연관된 값을 구조화리듀서는 구조화된 정보를 전달받아 최종 출력물을 생산정말 큰 데이터 세트를 가진 클러스터를 운영하고 있다고 가정하면, 처리 과정을 여러 컴퓨터에 배분하거나 적어도 여러 작업(task)에 걸쳐 진행해야
Pig를 사용하면 더 쉽게 데이터를 처리할 수 있다.Hadoop과 MapReduce 위에 구축되었기 때문에 이를 통해 매퍼와 리듀서를 작성하지 않고 MapReduce 작업을 할 수 있다.Apache Pig-> 매퍼나 리듀서를 작성하지 않고 데이터를 빠르게 분석할 수 있