# spark

5개의 포스트
post-thumbnail

Apache Spark 101

아파치 스파크Apache Spark는 빅데이터와 오픈소스 소프트웨어의 중요한 요소입니다. 빅데이터 분석 분야에서 많이 사용되고 있으며, 관심과 사용도는 빠르게 증가하고 있습니다. On-Premise에 구성하여 사용하기도 하고 클라우드 서비스 프로바이더CSP, Cloud

2020년 11월 8일
·
0개의 댓글
post-thumbnail

하둡 에코시스템

높은 확장성과 신뢰성을 보유한 분산 스토리지와 분산 처리 기능을 제공하기 위해 다양한 소프트웨어를 밀접하게 통합한 에코시스템.

2020년 10월 3일
·
0개의 댓글
post-thumbnail

RDD map, filter 외부 모듈 함수 사용하기 in pyspark

pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.

2020년 5월 30일
·
0개의 댓글
post-thumbnail

Data Preparation의 변화

Data engineer나 Data Analyst가 수행하는 Data-Prep의 수행 절차가 최근 몇년 사이에 크게 변화고 있는 듯 합니다. 기존에는 Data Engineer가 Programming 언어을 활용해 빅데이터 같으면 Hadoop 기반에서 Hive, Spar

2020년 4월 8일
·
0개의 댓글

Spark의 reduction operation (Spark에서 foldLeft가 없는 이유)

coursera 강의 - Big Data Analysis with Scala and Spark를 보고 정리한 글입니다. spark에서는 분산 처리 환경을 위해 두 종류의 연산을 제공합니다. 바로 lazy한 transformation과 eager한 action입니다.

2020년 3월 31일
·
0개의 댓글