# MapReduce

10개의 포스트
post-thumbnail

[Hadoop] 맵 리듀스

과정 입력 데이터를 스플릿이라는 조각으로 나눈다. 스플릿의 크기는 작을 수록 더 많은 수의 컴퓨터로 병렬적으로 처리할 수 있기 때문에 좋다. 하지만 너무 작으면 스플릿 관리와 맵 태스크 생성을 위한 오버헤드 때문에 잡의 실행 시간이 증가한다. 일반적으로 HDFS 블록

2022년 2월 3일
·
0개의 댓글

[Hadoop] Mapreduce 기본

MapReduce 하둡이 제공하는 빌트인 도구 데이터를 클러스터에 분배하는 작업 수행 데이터를 파티션으로 나누어 클러스터에서 병렬로 처리할 수 있도록 함 Mapper 는 관심있는 데이터를 뽑아 데이터를 추출하고 구조화 Reducer 는 mapper 에서 변경, 추출

2022년 1월 10일
·
0개의 댓글
post-thumbnail

빅데이터응용

1\. 컴퓨터가 커다란 텍스트 파일을 분할하여 저장하고 있다.2\. 한번 쭉 읽어서 각각의 단어가 한번씩 나왔음을 의미하는 key-value 쌍을 만든다.3\. group by key를 하여 키 값이 같은 것끼리 묶어준다.4\. reduce를 실행하여 키 값이 같은 것

2021년 9월 25일
·
0개의 댓글

[DE] Hadoop (MapReduce)

대용량의 데이터 처리를 위한 분산 처리 프레임워크입니다. MapReduce 프레임워크를 이용하면 대량의 데이터를 병렬로 분석 가능합니다.

2021년 9월 1일
·
0개의 댓글
post-thumbnail

맵리듀스로 그리는 빅데이터 지도

빅'데이터 처리의 기본패턴 제타바이트(Zettabyte, $10^{21}$) 단위까지 증가한 데이터, 즉 빅데이터를 처리하기 위한 방법은 성능이 좋은 컴퓨터를 써야한다. 혹은 컴퓨터를 여러 대를 연결한 뒤 작업을 분할해 사용할 수도 있다. 멀티 코어, 멀티 프로세서 등

2021년 9월 1일
·
0개의 댓글

[DE] Hadoop (HDFS)

빅데이터 관련 포스팅을 보면 대부분 하둡 에코시스템(Hadoop eco-system)을 사용하는것을 볼 수 있습니다. Hadoop에 대해 알아보도록 하겠습니다.

2021년 8월 29일
·
0개의 댓글
post-thumbnail

Hadoop 메모

공부를 해보면서 Hadoop이라는 단어를 쓸 때 어떤 것을 지칭하는 지 확실히 해야 한다는 것을 느꼈음. 여러 문서를 읽어본 결과, 각각 문서에서 Hadoop이란 단어의 정확한 의미가 각자 다름. 예를들면..Hadoop이란 단어를 Hadoop Ecosystem 전체를

2021년 4월 18일
·
0개의 댓글
post-thumbnail

MapReduce Model?

위키피디아에서는 "MapReduce is a programming model and an associated implementation for processing and generating big data sets with a parallel, distributed a

2021년 2월 7일
·
0개의 댓글
post-thumbnail

맵 리듀스(MapReduce) 개발 실습- Wordcount (단어가 n개 이상인 것을 찾아서 보여주기)

Project 환경 구성개발 툴: intelij빌드 : mavenjava 1.8+hadoop 3.3.0 pom.xml 설정WordCountMapper구현WordCountReducer 구현WordCount 구현install로 jar파일 생성생성확인터미널에서 jar파일 생

2020년 10월 29일
·
0개의 댓글
post-thumbnail

하둡 에코시스템

높은 확장성과 신뢰성을 보유한 분산 스토리지와 분산 처리 기능을 제공하기 위해 다양한 소프트웨어를 밀접하게 통합한 에코시스템.

2020년 10월 3일
·
0개의 댓글