# hadoop

90개의 포스트
post-thumbnail

[Spark] 로컬에서 spark 실행하기(windows)

로컬에서 spark로 s3서비스를 접근하는데 많은 삽질을 하여 로컬 spark 실행에 관한 내용을 남겨놓습니다.spark 설치링크 : https://spark.apache.org/downloads.html이전에 듣던 강의 자료에서 Hadoop 2.7버전을 사용

약 1시간 전
·
0개의 댓글

하둡: 당신이 알아야 할 것

이 글은 Hadoop: What you need to know를 번역한 것입니다. 2006년 야후에서 검색 플랫폼을 향상시키기 위해 썼던 한 방법부터 시작해 아파치 오픈소스 프로젝트, 그리고 세계의 큰 기업체에서 사실상의 표준으로 자리잡기까지 하둡은 데이터 프로세싱

약 12시간 전
·
0개의 댓글

데이터베이스는 망치, 맵리듀스는 스크류 드라이버.

이 글은 구글 직원의 'Databases are hammers; MapReduce is a screwdriver.'를 번역한 글입니다.많은 사람들이 맵리듀스에 관한 기사를 많이 보내왔다. 요새 맵리듀스 열풍이 불고 있는데다 나를 고용한 구글이 많이 쓰는지라 이걸 쓸까말

2일 전
·
0개의 댓글

[Hadoop] 기초

우리는 데이터의 세상 속에 살고 있다.데이터는 끊임 없이 생성되며, 디지털이 아닌 아날로그 데이터까지도 점점 데이터로 옮겨지고 있다.데이터의 용량은 크기 대비 증가하고 있으며, 어차피 물리적인 크기를 늘리면 되니까 문제가 되지 않는다.문제는 데이터를 읽는 속도이다. 처

2일 전
·
0개의 댓글

[Hadoop] Hadoop 상태 체크 (report)

hdfs dfsadmin -report -livelive한 data node 포함 hadoop 상태 reporthdfs dfsadmin -report -deaddead한 data node report

2022년 1월 18일
·
0개의 댓글

Hadoop 설치 메뉴얼

hadoop 설치 관련 꿀팁

2022년 1월 17일
·
0개의 댓글
post-thumbnail

[Bigdata] Hadoop 이란 - HDFS

하둡 개념

2022년 1월 17일
·
0개의 댓글

Hadoop 직접 설치해보기

Hadoop GCP

2022년 1월 11일
·
0개의 댓글

[Hadoop] Sqoop 개요

SQL + Hadoop 합쳐 만든 이름데이터세트를 HDFS 로 가져오거나 내보내기.ex) MySQL, PostGres 와 같은 데이터베이스에 가져와 MapReduce를 수행, HDFS 로 적재sqoop import --connect jdbc:mysql://localho

2022년 1월 11일
·
0개의 댓글

[Hadoop] Mapreduce 기본

MapReduce 하둡이 제공하는 빌트인 도구 데이터를 클러스터에 분배하는 작업 수행 데이터를 파티션으로 나누어 클러스터에서 병렬로 처리할 수 있도록 함 Mapper 는 관심있는 데이터를 뽑아 데이터를 추출하고 구조화 Reducer 는 mapper 에서 변경, 추출

2022년 1월 10일
·
0개의 댓글

[Hadoop] CLI 명령어 기본

대부분 일반 linux cli 명령어와 공통되는 부분이 많음hadoop fs -ls파일, 디렉토리 목록 나열hadoop fs -mkdir {디렉토리명}디렉토리 생성hadoop fs -rm {파일명}파일 삭제hadoop fs -copyFromLocal {local파일명}

2022년 1월 6일
·
0개의 댓글

[Hadoop] SafeMode 확인, 진입, 해제

https://wikidocs.net/25321 세이프 모드 상태의 확인, 진입, 해제 커맨드는 다음과 같습니다. 세이프 모드 상태 확인 $ hdfs dfsadmin -safemode get Safe mode is OFF 세이프 모드 진입 $ hdfs dfsadm

2022년 1월 4일
·
0개의 댓글

[Hadoop] Hadoop 기본, NameNode 장애 대비책

DataNode 에 데이터 블록이 어디에 저장되어있는지, 복제본이 어떠한지 관리데이터 블록을 저장하는 노드NameNode에 질의하여 파일을 요청NameNode가 응답하면 블록 검색을 위해 어떤 DataNode에 접근해야하는지를 알 수 있음DataNode에 접근하여 데이

2022년 1월 4일
·
0개의 댓글
post-thumbnail

[Hadoop&Spark]RDD(Resilient Distributed Dataset) 이해하기

데이터를 HDFS(Hadoop File System)에 넣었다 뺐다 하니까 느리다. 다시말해 처음부터 읽어오지 말고 RAM에 올려놓고 쿼리쿼리쿼리~\-> 하지만 RAM에 올려놓으면 또 에러나거나 컴퓨터가 꺼지면 소실되잖아..RAM에 READ-ONLY로 입력해 놓자!어떻

2021년 12월 22일
·
0개의 댓글

[Hadoop] Hadoop & HDFS

하둡이란?하둡은 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 하둡은 구글이 논문으로 발표한 GFS(Google File System)과 맵리듀스(MapReduce)를 2005년 더그커팅이 구현한 결과물이다. 하둡은 분산시스템인 HDFS

2021년 11월 28일
·
0개의 댓글

Shell Script 분석 연습 - Hadoop start-all.sh

작성계기 요즘 Shell Script에 대해서 공부하고 있다. 연습이 필요해 Hadoop의 start-all.sh라는 스크립트를 분석해보면서 공부했던 내용도 리마인드하고 몰랐던 내용도 새로 알아보기 위해 시도해보았다. start-all.sh라는 스크립트는 Hadoo

2021년 11월 13일
·
0개의 댓글
post-thumbnail

[빅데이터]Spark tool의 실무 적용

RDD와 Dataframe의 주 데이터 타입하둡과 달리 RAM에서 I/O가 발생하도록 설정 가능: 속도에서 비약적 차이 발생효율적인 처리/분석 가능Transform/Action으로 구분하여 Action일 경우에만 실제 실행이 발생 : 속도 향상Transfrom: fil

2021년 11월 7일
·
0개의 댓글
post-thumbnail

[빅데이터]Hadoop과 Spark

빅데이터 플랫폼 위에 스파크가 적용되는 것이 일반적In-memory 기반의 클러스터 컴퓨팅 데이터 처리 프로그램RDD(Resilient Distributed Dataset)을 구현하기 위한 프로그램in memory 기반의 데이터 처리방식이 real-time분석을 가능하

2021년 11월 5일
·
0개의 댓글
post-thumbnail

[Hadoop] Hadoop Ecosystem

하둡은 여러대의 컴퓨터 클러스터에서 대규모 데이터를 분산처리할 수 있게 해주는 프레임워크이다. 하둡 분산처리 시스템 (HDFS)과 MapReduce 프레임워크로 시작했으나 여러 데이터 저장, 실행 엔진, 처리 등 다양한 하둡 생태계 전반을 포함하는 의미로 발전하고있다.

2021년 10월 31일
·
0개의 댓글