분산 처리란?
- 하나의 중앙 처리 장치가 처리 또는 제어하고 있던 기능을 여러 개의 처리 장치에 분산시켜 처리하는 방식
- 중앙의 대형 컴퓨터에 의한 집중 처리와는 달리 데이터의 발생 장소에서 처리를 하는 방식
-> 현행 방식은 완전 분산 방식이 아닌 집중과 분산의 장점을 취합해 사용
클라우드 분산 처리란?
- 분산 처리 기술과 클라우드 서비스를 이용하여 데이터를 여러 개 서버에 나누어 병렬 처리하는 방식
- 대량의 데이터를 분산 처리 하는 방법으로 여러 개의 서버를 결합하여 하나의 컴퓨터처럼 보이게 만드는 기술을 의미
- 빅데이터 분석과 같이 다양한 데이터를 처리할 때에는 클라우드가 적합
cluster?
- 같은 속성을 갖는 대상을 여러 개 모아서 하나의 대상으로 한 것이라는 의미
- 여러 개의 서버를 결합하여 하나의 컴퓨터로 보이게 함
clustering?
- 데이터를 서로 유사한 정도에 따라 군집으로 분류하는 작업
- 수많은 정보를 재빠르게 접할 수 있도록 도와주는 재미있고 쉽고 자연스러운 저널기법
◼ 분산 데이터 인프라스트럭처로, 범용화된 서버의 클러스터와 함께 다양한 노드에서 대량의 데이터 컬렉션을 배포 (더이상 값비싼 하드웨어를 구매하고 유지하는 것이 필요하지 않다는 것을 의미)
◼ 데이터에 대해 색인하고 계속 유지하면서 이전에 가능했던 처리, 분석보다 효과적으로 빅데이터 처리와 분석
◼ 하둡의 기술
◾ HDFS(Hadoop Distributed File System)라고 불리는 스토리지 요소
◾ 맵리듀스(MapReduce)라고 불리는 데이터 처리 요소 : 단계적으로 실행
◼ 하둡은 데이터가 디스크에 쓰여진 이후 시스템 고장이나 실패로부터 자연적으로 회복력이 있음
◼ 분산된 데이터 컬렉션에서 실행하는 데이터 처리 툴이지 분산 스토리지가 아님
◼ Hadoop이 없어도 스파크 사용 가능
-> 다만, Spark는 Hadoopd을 위해 설계됐기에 함께 사용하는 것을 권장
◼ 맵리듀스보다 빠른 속도 : Spark는 전체 데이터 셋에서 단번에 데이터 처리
-> 다만, Spark의 빠른 속도가 필요치 않을 수도 있음 (스트리밍 데이터 분석 or 복합적인 실행이 필요할 경우 Spark)
◼ 스파크는 소위 RDD(Resilient Distributed Datasets)라 부르는 회복력 있는 분산 데이터 셋 개념으로, 유사한 회복력을 내장
참고사이트
분산 처리
클라우드 기술 (컨테이너,분산처리,데이터베이스)
클러스터
클러스터 기법
하둡과 아파치 스파크에 대해 알아야 할 5가지