시리즈 | 하둡과 스파크를 활용한 실용 데이터 과학

1.데이터 과학

(이 포스팅은 '하둡과 스파크를 활용한 실용 데이터과학'책의 리뷰이다.)데이터에서 어떤 의미나 통찰을 발견하려고 과학적 방법을 이용하는 '데이터 탐색'과 발견한 의미와 통찰을 비즈니스 맥락에서 활용하는 '소프트웨어 시스템의 구축'을 아우른다.핵심적 측면데이터 과학은 과

2022년 2월 2일

2.데이터 과학의 활용 사례

기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있으며 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방

2022년 2월 2일

3.하둡이란

아파치 하둡은 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 컴퓨팅 플랫폼이다. 하둡의 원래 개발 목적은 검색 색인에 있었지만 사람들은 곧 하둡의 핵심 개념을 다른 일반적인 문제에도 폭넓게 적용할 수 있게 되면서 하둡은 여러 해 동안 다방면에 활용되고 개

2022년 2월 2일

4.리소스 관리자와 스케줄러

좋은 분산 시스템이 갖춰야할 핵심 요소는 스케줄링과 리소스 관리 기능이다. 하둡에도 효율적인 방법으로 계산 리소스를 할당하고 사용자 애플리케이션을 스케줄링하는 시스템이 존재하며 이를 YARN(Yet Another Negotiator)이라 부른다.YARN은 스케줄링과 리

2022년 2월 2일

5.스파크

비교적 최신 프로젝트에 속하는 아파치 스파크는 분산 인-메모리 데이터 처리 프레임워크이다. 스파크는 스칼라와 파이썬을 지원하는 대화형 데이터 처리 기능을 제공하며 이를 통해 데이터 전처리를 매우 효과적으로 수행할 수 있다.스파크에서 주로 사용되는 추상화 객체는 RDD(

2022년 2월 15일

6.스파크

비교적 최신 프로젝트에 속하는 아파치 스파크는 분산 인-메모리 데이터 처리 프레임워크이다. 스파크는 스칼라와 파이썬을 지원하는 대화형 데이터 처리 기능을 제공하며 이를 통해 데이터 전처리를 매우 효과적으로 수행할 수 있다.스파크에서 주로 사용되는 추상화 객체는 RDD(

2022년 2월 15일