crosstar1228.log

crosstar1228.log

[Hadoop&Spark]RDD(Resilient Distributed Dataset) 이해하기

건너별·2021년 12월 22일

hadoop spark 빅데이터

BigData

목록 보기

6/7

기존의 문제점

데이터를 HDFS(Hadoop File System)에 넣었다 뺐다 하니까 느리다.

대체방법 고안

다시말해 처음부터 읽어오지 말고 RAM에 올려놓고 쿼리쿼리쿼리~
-> 하지만 RAM에 올려놓으면 또 에러나거나 컴퓨터가 꺼지면 소실되잖아..

대체방법 고안 2

RAM에 READ-ONLY로 입력해 놓자!

-> 이것이 RDD

어떻게 만들어졌는지 계보(lineage)를 기록
DAG(Directed acyclic graph)의 형태를 띰

[https://techvidvan.com/tutorials/apache-spark-dag-directed-acyclic-graph/]

그렇게 transformation & action 하게 됨

lazy execution으로 계산 최적화

romantic ai developer

이전 포스트

[빅데이터]Hive란

다음 포스트

[통계학] T-distribution, T-test

0개의 댓글