GRS (Google File System) | 하둡(Hadoop) | 스파크(Spark) | |
---|---|---|---|
언어 | Java 프로그래밍 언어 기반 | java와 Scala가 기본 언어 | |
특징 | - Google - 분산처리에 적합한 파일시스템 - 복제가 용이함 | - Apache 재단 - 빅데이터용 오픈소스 - HDFS(Hadoop Distributed File System)와 MapReduce | - RDD(Resilient Distributed Dataset; 탄력적 분산 데이터셋)를 이용 |
데이터 수집(Data Ingestion) : 스쿱(Sqoop), 플럼(Flume)
데이터 처리(Data Processing) : 하둡 분산파일시스템(HDFS), 맵리듀스(MapReduce), 얀(Yarn), 스파크(Spark)
데이터 분석(Data Analysis) : 피그(Pig), 임팔라(Impala), 하이브(Hive)
데이터 검색(Data Exploration) : 클라우데라 서치(Cloudera Search), 휴(Hue)
기타 : 우지(Oozie), HBase, 제플린(Zeppelin), SparkMLlib, 머하웃(mahout)
sc.textFile()
RDD 생성 But, 실제 RDD의 lineage(계보)filter()
transformations의 함수counts()
Actions의 함수, 실제 RDD가 생성되는 시점느긋한 계산법
- 결괏값이 필요할 때까지 계산을 늦추다가 정말 필요한 시기에 계산을 수행하는 방법
스파크의 엔트리포인트(= SparkContext) 객체선언
동장 방식
주요내용