[MapReduce] MapReduce 프로그래밍의 한계

Hyunjun Kim·2025년 8월 23일

Data_Engineering

목록 보기

139/153

4 MapReduce 프로그래밍의 한계

4.1 MapReduce 의 제약사항

4.1.1 프로그래밍 시간이 오래걸린다.

Java 프로그래밍으로 MapReduce 프레임워크와 인터페이스에 맞추어서 대용량 분산 데이터처리를 할 수 있는 것은 대단한 발전이었다.
하지만, Java 로 데이터 파싱부터, 데이터 처리, 정렬, 조인 등의 모든 데이터처리를 매번 짜는 것은 번거로운 일이다.

SQL, DSL 과 같은 형식의 데이터를 조작하기에 쉬운 언어로 동작한다면 더 효율적일 것이다.

4.1.2 데이터 모델과 스키마의 부재

파일의 형식만 지정할 수 있을 뿐, 그 안의 내용을 해석하는 것은 맵리듀스 어플리케이션 개발자의 몫이다. 따라서 데이터 파싱코드를 매번 짜야한다.
파싱 코드를 직접 짜는 것으로 인해 고수준의 복합적인 데이터 모델을 하기 어렵고, 데이터의 변화를 관리하기 또한 어렵다.
뿐만 아니라 파싱과정에서 일어날 수 있는 수많은 예외처리를 고려하는 것은 즐거운 일은 아니다.

4.1.3 고정된 데이터 흐름

맵리듀스 어플리케이션은 코드로 정의한 Map, Reduce 단계를 그대로 따른다.
물론 Java OOP와 맵리듀스의 체이닝 등을 활용하면 재사용성을 높이면서 새로운 데이터 흐름을 만들 수 있지만, 역시 컴파일하고 실행해서 검증하는 과정을 거쳐야 하는 것은 마찬가지이다.