# hadoop

17개의 포스트

하둡 프로그래밍 - 하둡 개발 환경 구축

1. 하둡 실행 모드 하둡의 실행 방식은 3가지가 있다. 독립 실행(Standalone) 모드 하둡의 기본 실행 모드이다. 하둡 환경설정 파일에 아무 설정도 하지 않고 실행하면 로컬 장비에서만 실행되게 된다. 때문에 독립 실행 모드는 로컬 모드라고도 한다. 다만, 하둡

20분 전
·
0개의 댓글
post-thumbnail

하둡 프로그래밍 - 하둡 기초

1. 빅데이터의 개념 빅데이터는 지금까지 명확한 개념으로 규정된 적이 없다. 맥킨지와 IDC에 따르면 다음과 같이 빅데이터를 정의했다. > 1. 데이터의 규모에 초점을 맞춘 정의 - 맥킨지 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘

2021년 1월 12일
·
0개의 댓글

hadoop을 맛보는 글

하둡을 설명하는 4가지 키워드빅데이터분산 컴퓨팅저장분석우선 하둡이라는 이름은 개발자네 아들이 갖고 놀던 노란색 코끼리 인형에게서 왔다. 개인적으로 눈매가 별로다.

2020년 11월 29일
·
0개의 댓글
post-thumbnail

하둡 에코시스템

높은 확장성과 신뢰성을 보유한 분산 스토리지와 분산 처리 기능을 제공하기 위해 다양한 소프트웨어를 밀접하게 통합한 에코시스템.

2020년 10월 3일
·
0개의 댓글
post-thumbnail

하둡 에코 시스템을 만들어보자(리눅스 구축/윈도우10,centos 7)

이 글을 읽는 독자 분들에게 강조 하고 싶은 것1\. 저는 윈도우에서 가상머신을 설치하여 그 안에 리눅스와 하둡을 설치하려 합니다. 항상 가상머신을 백업해주어야 합니다.2\. 버전, os가 맞는 설치 방법을 찾아야 합니다.(여기서 설치하는 버전 가상 머신이란 하나의 o

2020년 8월 28일
·
0개의 댓글
post-thumbnail

Hadoop Eco System (하둡 에코 시스템)

하둡의 코어 프로젝트(Framework)는 HDFS, MapReduce이지만 그 외에도 다양한 서브 프로젝트들이 많다. 하둡 에코 시스템은 그 Framework를 이루고 있는 다양한 서브 프로젝트들의 모임입니다.그림을 보면 이해가 훨씬 쉬울 것이다. 하둡에코시스템(Ha

2020년 8월 11일
·
0개의 댓글
post-thumbnail

MapReduce

Hadoop의 코어 프로젝트(Framework)인 맵리듀스에 대해 정리해보겠습니다. MapReduce 란? 대용량의 데이터를 처리하기 위한 분산 프로그래밍 모델 (소프트웨어 Framework) 정렬된 데이터를 분산처리(Map)하고 이를 다시 합치는(Reduce)

2020년 8월 11일
·
0개의 댓글
post-thumbnail

HDFS (Hadoop Distributed File System)

Hadoop의 코어 프로젝트(Framework)인 하둡 분산형 파일 시스템에 대해 정리해보겠습니다.하둡 분산형 파일 시스템이란 의미로, Hadoop 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템이다.범용 하드웨어로 구성된 클러스터에서 실행되고, 데이터

2020년 8월 11일
·
0개의 댓글
post-thumbnail

Hadoop

대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 Java 소프트웨어 프레임워크이다. (출처 : 위키백과)4차 산업 시대에서 '빅데이터' 라는 단어는 들어보지 않은 사람이 없을 정도로 쉽게 접할 수 있다. AI, 자율

2020년 8월 11일
·
0개의 댓글
post-thumbnail

Data Preparation의 변화

Data engineer나 Data Analyst가 수행하는 Data-Prep의 수행 절차가 최근 몇년 사이에 크게 변화고 있는 듯 합니다. 기존에는 Data Engineer가 Programming 언어을 활용해 빅데이터 같으면 Hadoop 기반에서 Hive, Spar

2020년 4월 8일
·
0개의 댓글
post-thumbnail

Hadoop 설치 및 movielens data를 이용한 hive 예제

1-1 Cloudera 홈페이지 접속(https://www.cloudera.com/downloads/hortonworks-sandbox.html)\> Download Now 클릭 cf) 2019년에 Hortonworks가 Cloudera와 합병됨1-2 Choo

2020년 3월 20일
·
0개의 댓글
post-thumbnail

Hadoop 환경설정 및 설치 (2/2)

Hadoop 환경설정 및 설치 (2/2) 슬라이드44.PNG 슬라이드45.PNG 슬라이드46.PNG 슬라이드47.PNG ![슬라이드48.PNG](https://images.velog.io/post-images

2020년 2월 9일
·
0개의 댓글
post-thumbnail

Hadoop 환경설정 및 설치 (1/2)

Hadoop 환결설정 및 설치 슬라이드1.PNG 슬라이드2.PNG 슬라이드3.PNG 슬라이드4.PNG ![슬라이드5.PNG](https://images.velog.io/post-images/kyjun/df589ed

2020년 2월 9일
·
0개의 댓글

Hadoop Execution

Hadoop 실행 hadoop namenode -format namenode를 초기화 시켜준다(주의 할것!) 클러스터 데몬 실행 start-all.cmd : 모든 데몬 실행(Window이기때문에 .cmd) stop-all.cmd : 모든 데몬 중지 start-dfs.cmd : 파일시스템 실행 stop-dfs.cmd : 파일시스템 중지 start-yarn....

2020년 1월 7일
·
0개의 댓글

Hadoop Basic and Preferences

**2020.01.06 Hadoop Class Hadoop 분산파일시스템(HDFS) : 마스터 노드(name node)가 있으며, 그 아래로 슬레이브 노드(data node)를 두어서 저장을 하게된다. 마스터 노드에는 각각의 슬레이브 노드에 대한 정보를 가지고있으며, 새로운 데이터가 저장될경우 각각의 슬레이브 노드에 나누어서 데이터를 저장시키게된다. 리눅...

2020년 1월 6일
·
0개의 댓글
post-thumbnail

hive partition 정리하기

hive partition 정리하기 hive table에 매일매일 데이터를 쌓으며 방치하다보면, 데이터가 눈 깜짝할 새에 늘어나버린다. 필요한 이상으로. 주기적으로 파티션의 데이터를 지워줘야 하는데 기본적인 방법들을 몇가지 나열해본다. 1. 기본적인 하나의 파티션 지우기 조건 결과 * science라는 partition 내의 da...

2019년 12월 11일
·
0개의 댓글
post-thumbnail

Hive Sort by, Distribute by, Cluster by 활용도

Hive에서 제공하는 기능중에서 일반 SQL 에서는 볼 수 없는 기능들 중, 리듀서에 보내는 데이터를, 분류할 수 있는 아래 3가지에 대해 알아보도록 하자. - Sort by - Distribute by - Cluster by 실험데이터 game_accoun

2019년 5월 24일
·
0개의 댓글