맵리듀스 이해하기

함지민·2021년 4월 20일

MapReduce란 ? Map과 reduce의 합성어이며, map의 key, value 방식을 이용해 빅데이터를 각 다른 노드에 분산 저장하지만 하나의 노드에 저장된것처럼 보이는 방법

하나의 고가의 서버장비를 준비하지 않고 조금 저렴한 서버 장비를 여러대로 준비할 수 있다.
- 고가의 서버 장비는 몇 억을 호가하는 매우 비싼 장비이며, 그것을 대신해 2~3천만원대 서버장비 여러대로 대체 할 수 있다.
map의 key값을 기준으로 sort(정렬)이 간편해 지는 장점이 있다.
처리 과정으로는 Mapper ➡️ Shuffle & Sort ➡️ Reduce 으로 이루어진다.

1. mapper에서는 map의 싱글 HDFS 블록들에 대해 각 Map작업이 수행되며, Map 작업들은 대체로 블록이 저장된 노드에서 실행된다.( key값을 기준으로 같은것들 끼리 묶어 배열값으로 저장)

2. shuffle & sort : mapper 에서 Map(key, value)작업이 끝나면 각 노드에 shuffle & sort작업이 수행된뒤 reduce 작업이 실행되기 전 종료된다. ( 이 작업에서 한 곳으로 모음 ) 

3. shuffle & sort 작업이 종료된 후 작업이 실행되며 최종산출물을 뽑아낸다.

함지민

일기대신 velog

이전 포스트

눈 떠보니 코딩 테스트 1번

다음 포스트

맵리듀스 이해하기

눈 떠보니 코딩 테스트 1번

파이썬으로 크롤링을 해보자!

0개의 댓글