
“서버 한대로 처리할 수 없는 규모의 데이터”“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”4V(Volume, Velocity, Variety, Varecity)데이터 크기 대용량/ 처리 속도 / 구조화&비구조화 /품질비구조화된 데이터일 가능성이 높음: SQL만

1. 빅데이터 처리와 Spark 소개 1) 빅데이터의 처리를 위해 하둡이라는 오픈소스 등장 분산 파일 시스템과 분산 컴퓨팅 시스템으로 구성 HDFS 와 맵리듀스 / YARN 맵리듀스 프로그래밍의 제약성으로 인해 SQL이 재등장 2) Spark는 대세 대용량 데이터 분