[BigData] Spark 책

Sejin Jeong·2022년 12월 22일
1

Big Data

목록 보기
5/6
post-thumbnail

나의 스파크 공부 책은

이 책이다.

이 책은 스파크 실행부터 다양한 라이브러리를 사용하는 방법에 대해 알려준다. 가장 인상 깊었던 것이 두 가지 있다.

1. Hadoop을 설치하지 않고 Spark를 바로 설치한 것.

2. Spark 환경에서 머신러닝 라이브러리를 제공해, 일반 컴퓨터에서도 GPU만큼은 아니지만, 그래도 조금 더 빨리 데이터를 처리할 수 있는 것.

우선, 1번은 원래대로면 Spark도 Hadoop기반이라 Hadoop을 반드시 설치해주어야 하는 줄 알았는데, Hadoop을 설치 안해도 곧장 돌아가서 신기했다.

2번은 생각의 전환이 필요했다. 보통 빅데이터로 머신러닝 프로그램을 짠다고 하면, '빅데이터 처리 -> 머신러닝 연산' 순서로 동작하는데, Spark에서는 MLlib이라는 라이브러리를 단일 제공해서 빅데이터 처리와 머신러닝 연산을 동시에 진행시킨다.

MLlib 사용법은 따로 다루겠다.

profile
Soli Deo Gloria. / Sapere Aude.

0개의 댓글