profile
읏차 웃자

[Spark] Practice: RDD

읽어온 line을 ", "를 기준으로 나눈 후, list로 저장 (단, 점수는 int형으로) > > 과목별 등장 횟수를 (과목명, 등장 횟수)로 > > 학생별 평균 점수 구하기 이름이 같아도 학년이 다르면 다른 사람임 > > >

2022년 10월 18일
·
0개의 댓글
·

[Spark] Spark DataFrame / SQL

목표 정형 데이터를 쉽게 다룰 수 있는 Spark Dataframe, Dataset에 대해 이해한다 Spark DataFrame, DataSet 에 대해 SQL 연산을 수행해본다 Spark SQL 특징 Integrated spark와 sql 쿼리를 원활하게 결합 Spark SQL은 Spark 내에 RDD 형태로 저장돼있는 정형 데이터를 통합된 API로 Qeury할 수 있게 한다 Unified Data Access 다양한 소스로부터 데이터를 load, query할 수 있다 Standard Connectivity DataFrame RDD+Schema 관계형 데이터베이스의 테이블 대량의 데이터를 처리하기 용이하게 디자인됨 RDD vs DataFrame RDD: 데이터에 대한 설명이 안들어가 있음 Da

2022년 10월 8일
·
0개의 댓글
·

[Hadoop & Spark] Hadoop의 map/reduce와 spark의 RDD연산의 차이

❔ Hadoop의 map/reduce와 spark의 RDD연산의 차이는 무엇일까? Hadoop은 mapreduce 방식으로 데이터를 분산 처리한다. 여러 곳에 분산 저장된 데이터를 처리 하기 위해 mapreduce 방식으로 데이터를 처리한다. spark 역시 mapreduce 방식의 데이터처리 구조를 지원한다. spark도 여러 곳에 저장된 데이터를 처리 하기 위해 mapreduce 방식으로 데이터를 처리 할 수 있다. 하지만 둘의 차이는, 데이터를 메모리에 놓고 하느냐, 디스크에 놓고 하느냐. Hadoop은 기본적으로 디스크로부터 map/reduce할 데이터를 불러오고, 처리 결과를 디스크로 쓴다.

2022년 9월 30일
·
0개의 댓글
·