spark streaming이란?SQL엔진 위에 만들어진 분산 스트림 처리 프로세싱데이터 스트림을 처리할때 사용시간대 별로 데이터를 합처(aggregate) 분석할 수 있음Kafka, Amazon Kinesis, HDFS 등과 연결 가능체크포인트를 만들어서 부분적인 결
spark란?아파치 스파크(apache spark)는 2011년 버클리 대학의 AMPLab에서 개발되어 현재는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크입니다.스파크의 특징Speed
executor 설정 시 서버 Node 수 및 core수에 맞춰 설정해야한다.예를 들어 서버는 총 3대, 서버 당 core는 64, 서버 당 memory 128G 일 때executor 의 core, 개수, 메모리 값을 설정해 보자.executor core의 수 -> 0
지연 처리방식Spark Transformation 는 기존의 RDD에서 새로운 RDD를 생성하는 function이다.Lazy 처리방식이라서 action을 호출할 때 transformation이 실제로 실행된다.transformation을 수행할 때 query plan만
그룹핑시 데이터를 한 노드에서 다른노드로 옮길때 발생성능을 많이 저하시킴 여러 네트워크 연산을 일으킴groupBykey() 할때도 발생한다.여러 노드에서 데이터를 주고 받게됨(네트워크연산)shuffle을 일으킬 수 있는 작업들join, leftOuterJoin, rig
spark는 하나의 중앙 조정자(coordinator)와 여러개의 분산 작업노드로 구성되는 마스터/슬레이브 구조를 사용한다.중앙 조정자 = 드라이버드라이버는 executor라고 불리는 다수의 분산 작업자들과 통신한다.드라이버는 자신만의 자바 프로세스에서 돌아가며 각 익