(이 포스팅은 '하둡과 스파크를 활용한 실용 데이터과학'책의 리뷰이다.)데이터에서 어떤 의미나 통찰을 발견하려고 과학적 방법을 이용하는 '데이터 탐색'과 발견한 의미와 통찰을 비즈니스 맥락에서 활용하는 '소프트웨어 시스템의 구축'을 아우른다.핵심적 측면데이터 과학은 과
기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있으며 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방
아파치 하둡은 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 컴퓨팅 플랫폼이다. 하둡의 원래 개발 목적은 검색 색인에 있었지만 사람들은 곧 하둡의 핵심 개념을 다른 일반적인 문제에도 폭넓게 적용할 수 있게 되면서 하둡은 여러 해 동안 다방면에 활용되고 개
좋은 분산 시스템이 갖춰야할 핵심 요소는 스케줄링과 리소스 관리 기능이다. 하둡에도 효율적인 방법으로 계산 리소스를 할당하고 사용자 애플리케이션을 스케줄링하는 시스템이 존재하며 이를 YARN(Yet Another Negotiator)이라 부른다.YARN은 스케줄링과 리
비교적 최신 프로젝트에 속하는 아파치 스파크는 분산 인-메모리 데이터 처리 프레임워크이다. 스파크는 스칼라와 파이썬을 지원하는 대화형 데이터 처리 기능을 제공하며 이를 통해 데이터 전처리를 매우 효과적으로 수행할 수 있다.스파크에서 주로 사용되는 추상화 객체는 RDD(
비교적 최신 프로젝트에 속하는 아파치 스파크는 분산 인-메모리 데이터 처리 프레임워크이다. 스파크는 스칼라와 파이썬을 지원하는 대화형 데이터 처리 기능을 제공하며 이를 통해 데이터 전처리를 매우 효과적으로 수행할 수 있다.스파크에서 주로 사용되는 추상화 객체는 RDD(