TIL - 2021.06.28

Wanna be __·2021년 6월 29일

TIL

목록 보기

25/45

Hadoop vs Spark
Hadoop은 빅 데이터를 담는 Database, Spark는 빅 데이터를 다루는 Framework 개념에 해당.
Spark가 Hadoop위에서 돌아갈수도, Hadoop을 이용하지 않을수도 있는데, Hadoop은 Map reduce 과정에서 반복적으로 하드에 접근을 하여 데이터 처리 속도가 아주 우수하지는 않은데, 이를 개선한 Spark는 in-memory방식을 사용하여 우수한 성능을 보임.

HDFS는 Hadoop Distributed File System으로, Hadoop에서 분산하여 Data를 보관하는 Data Structure의 일종이라고 이해함.
Data Lake vs Data Warehouse
대표적인 차이를 잡자면, Data Warehouse는 정형 데이터만 저장되기에, ETL방식으로 처리되어야하지만, Data Lake는 정형, 비정형등 모든 종류의 데이터를 저장하기에 ELT방식으로 처리할 수 있다.
목적성을 기준으로 분류를 하면, 특정한 목적을 위하여 데이터를 모으는 것은 Data Warehouse의 특징, 이와 반대로 특정한 목적없이 발생하는 데이터들을 모으는 것이 Data Lake에 해당한다.
이러한 특성에 각각 부합하는 AWS 서비스를 꼽자면, S3는 Data Lake에 Redshift는 Data Warehouse에 가깝다고 할 수 있다.
On-premise
물리적 서버를 구축하는 방식. 클라우드 방식과 대조됨.
Scaling Up vs Scaling Out
개별 컴퓨팅 성능을 높이는 것을 Scaling Up, 병렬처리로 컴퓨터의 개수를 늘리는 것을 Scaling Out이라고 칭함.

성장하는 개발자