최근 스타트업, 대기업 가릴 것 없이 데이터 분석이 유행이다. DDD(Data Driven Decision, 데이터 기반 의사결정)를 하기 위해 많은 회사에서 데이터 직무에 투자를 하고있다.데이터가 작을 때에는 Google Analytics와 같은 툴을 사용하면 되지만
스파크는 크게 스파크 어플리케이션, 클러스터 매니저로 구성되어 있다스파크 어플리케이션 : 실제로 작업을 수행하는 역할클러스터 매니저 : 스파크 어플리케이션 사이에 자원 중계하는 역할Spark Driver(스파크 드라이버)와 Executor(익스큐터)로 구성된다하나의 노
RDD : Resilient Distributed Data, 단순하게는 분산되어 존재하는 변하지 않는 데이터 요소들의 모임이다RDD는 여러 머신으로 구성된 클러스터 환경에서의 분산처리를 전제로 설계되었고, 그 내부는 파티션이라는 단위로 나뉜다RDD는 위와 같은 Line