시리즈

하둡

1.하둡 왜 사용하는가?

하둡 완벽가이드 책을 기반으로 이해한 것을 정리한 내역입니다.기술의 발전으로 데이터의 양과 하드 디스크 용량은 발전했지만, 데이터를 읽는 속도에 이에 미치지 못했다. 이를 개선할 수 있는 방법을 생각했을 때 병렬처리이다. 병렬처리는 큰 데이터 한 개를 100개로 쪼개고

2020년 6월 3일

2.맵리듀스 작동 과정 정리

기본적인 흐름은 key + value(Record라 함.) 형태의 데이터를 맵에서 input으로 받아서, 처리 후 중간 과정들을 겪어서 Reduce에 map의 output을 input으로 제공한다. 그럼 각 과정마다 어떻게 작업을 진행하는 건지, 그 과정을 알아보자

2020년 6월 11일