나의 스파크 공부 책은
이 책이다.
이 책은 스파크 실행부터 다양한 라이브러리를 사용하는 방법에 대해 알려준다. 가장 인상 깊었던 것이 두 가지 있다.
1. Hadoop을 설치하지 않고 Spark를 바로 설치한 것.
2. Spark 환경에서 머신러닝 라이브러리를 제공해, 일반 컴퓨터에서도 GPU만큼은 아니지만, 그래도 조금 더 빨리 데이터를 처리할 수 있는 것.
우선, 1번은 원래대로면 Spark도 Hadoop기반이라 Hadoop을 반드시 설치해주어야 하는 줄 알았는데, Hadoop을 설치 안해도 곧장 돌아가서 신기했다.
2번은 생각의 전환이 필요했다. 보통 빅데이터로 머신러닝 프로그램을 짠다고 하면, '빅데이터 처리 -> 머신러닝 연산' 순서로 동작하는데, Spark에서는 MLlib이라는 라이브러리를 단일 제공해서 빅데이터 처리와 머신러닝 연산을 동시에 진행시킨다.
MLlib 사용법은 따로 다루겠다.