하둡과 스파크

oneofakindscene·2021년 8월 4일
0

CS

목록 보기
8/8

하둡

  • 하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크
    • 저장 기술인 HDFS와 분산처리 기술인 맵리듀스(MapReduce)가 굉장한 장점
    • 기존의 관계형 데이터베이스 관리 시스템(RDBMS)은 비싼 비용이 듭니다. 하지만 하둡은 오픈소스로 비용이 거의 들지 않죠. 특히 빅데이터를 감당하려면 그에 비례하는 비용이 들 수 밖에 없는데요. 하둡은 분산 컴퓨팅 방식으로 구축 비용이 저렴하며 그 비용 대비 데이처 처리가 굉장히 빠릅니다. 또 장애를 대비하여 매번 운영한 이후의 결과들을 디스크에 기록하기 때문에 문제가 발생 했을때 기록된 결과들을 활용하여, 그 문제를 파악하고 해결하기 쉽다는 장점이 있습니다.

스파크

  • 스파크는 빅데이터 워크로드에 주로 사용되는 분산처리 시스템

  • 빠른 성능을 위해 인 메모리 캐싱과 최적화 된 실행을 사용하고 일반 배치처리, 스트리밍 분석, 머신러닝, 그래프 데이터 베이스 및 임시 쿼리를 지원

  • 기존의 하둡을 통해 끌어오는 데이터들은 시간 소요가 크기 때문에 실시간으로 분석해야 하는 업무에서는 어려운 부분이 있어 새로이 개발 되었구요. 함수형 프로그래밍이 가능한 언어 스칼라(Scala)를 사용해 간단한 코드로 인터렉티브 쉘(Interactive shell)를 사용할 수 있답니다.

  • 전체의 데이터셋을 한꺼번에 처리

  • 하둡은 데이터 일괄처리를 최선으로 하며, 페타바이트급의 데이터를 저렴한 비용으로 저장, 처리할 수 있고 스파크는 스트리밍 데이터로의 전환을 편리하게 할 수 있다는 장점 때문이죠. 물론 스파크는 하둡과 쓰기 위해 개발되었기 때문에 다른 클라우드 기반의 분산 데이터 플랫폼보다는 하둡과 함께 쓰면 더 좋은 것

빅데이터를 다룰 때 가장 일반적으로 쓰이는 기술은 하둡의 맵리듀스(MapReduce)와 연관 기술인 하이브(Hive) 입니다. 맵리듀스는 슈퍼 컴퓨터 없이 서버를 여러대 연결해 빅데이터 분석을 가능하게 했습니다. 하지만 기술이 나오고 시간이 한참 지난 뒤부터 여러 단점들이 보이기 시작했어요. 그래서 대안으로 나온 것이 아파치 스파크(Apache Spark)입니다. 맵리듀스와 비슷한 목적의 업무를 수행하는데 메모리를 활용한 굉장히 빠른 데이터 처리를 특징으로 가지고 있습니다.

References

profile
oneofakindscene

0개의 댓글