# bigdata

64개의 포스트
post-thumbnail

Hadoop - Hive 정리

Hive Hive는 hadoop ecosystem에서 데이터를 모델링하고 프로세싱 하는 경우 가장 많이 사용하는 data warehouse solution이다.

2022년 4월 22일
·
0개의 댓글
post-thumbnail

Hadoop - MapReduce

Hadoop - MapReduce MapReduce는 대용량의 데이터를 분산 컴퓨팅 환경에서 병렬 처리하여 속도를 높이도록 제작된 데이터 처리 모델이다. 간단한 단위작업을 반복하여 처리할 때 사용한다. 큰 데이터를 특정 크기의 block으로 나누고 각 block에 대해

2022년 4월 21일
·
0개의 댓글

(2) Hadoop - HDFS 기타기능 정리

HDFS Federation namenode는 파일 정보 메타데이터를 메모리에서 관리한다. 파일이 많아지면 메모리 사용량이 늘어나게 되고, 메모리 관리가 문제가 되고 이를 해결하기 위해 hadoop v2부터 HDFS federation을 지원한다. HDFS feder

2022년 4월 21일
·
0개의 댓글
post-thumbnail

(1) Hadoop - HDFS 아키텍쳐 정리

HDFS는 Hadoop Distributed File System의 약자이다.배치처리를 위해 설계되었기에 빠른 데이터 응답시간이 필요한 작업에는 적합하지 않다.그리고 namenode가 단일 실패 지점(SPOF)이 되기 때문에 namenode 관리가 중요하다.블록 단위

2022년 4월 20일
·
0개의 댓글
post-thumbnail

Hadoop ecosystem이란?

hadoop ecosystem은 hadoop framework를 이루고 있는 다양한 project들의 모임을 의미한다.분산 메시징 시스템으로 데이터 파이프라인 구축 시 주로 사용대용량 실시간 로그처리에 특화되어 있음.데이터를 안전하게 전달하는 것이 주 목적.fault-

2022년 4월 18일
·
0개의 댓글

Kafka란?

Kafka - 수집기술 링크드인에서 개발한 분산 메시징 시스템. 대용량 실시간 로그 처리에 특화되어 있다. Fast: 수 천개의 데이터로부터 초당 수백 MB의 데이터를 입력 받아도 안정적으로 처리가능 Scalable: 메시지를 파티션으로 분리하여 분산 저

2022년 4월 17일
·
0개의 댓글

Spark API

Spark API RDD RDD = Resilient Distributed Datasets Resilient = 회복력 있는 = 데이터 처리 과정에서 문제 발생- 해도 스스로 복구할 수 있음을 의미 RDD는 파티션 단위로 나뉘고, 여러 머신에서 파티션들을 분산처리하므

2022년 4월 14일
·
0개의 댓글
post-thumbnail

Apache Spark란?

Apache Spark 빅데이터 처리를 위한 오픈소스 병렬분산처리 플랫폼 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행될 수 있다. 아키텍쳐 spark application (= spark cluster) 실제

2022년 4월 12일
·
0개의 댓글
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글

Bigdata platform이란?

SNS, 로그, 문서 등 다양한 경로를 통해 수집한 여러가지 형태의 대용량 데이터를 이용하여 의사결정에 도움을 주는 지표를 분석하여 제공하는 것.Volume 데이터의 크기Variety 다양성(정형, 반정형, 비정형 등 다양한 형태의 데이터Velocity 생성 속도Val

2022년 4월 10일
·
0개의 댓글
post-thumbnail

빅데이터와 스파크

Big + data (큰) + 데이터빅데이터를 어떻게 하면 학문적으로 정의 할 수 있을까?스스로 정의 해보자!3V: Volume(규모), Variery(다양성), Velocity(속도)5V: 3v + Veracity(진실성), Value(가치)7V: Validity(정

2022년 4월 5일
·
0개의 댓글
post-thumbnail

[Python] FIFA 데이터 EDA

FIFA-20 데이터를 통한 스타플레이어 데이터 분석 및 능력치 비교

2022년 4월 2일
·
0개의 댓글
post-thumbnail

building my data warehouse with Airflow on GCP.

etl pipeline을 구글 클라우드 환경에서 구축하기 위해 준비해야할 것들 google colud cli 환경 airflow google cloud 계정 전체적인 아키텍쳐 화살표 방향은 신경쓰지 말아주세요! 왼쪽에서 오른쪽으로 흐름만 보면 됩니당! 1. 데이터

2022년 3월 26일
·
0개의 댓글
post-thumbnail

전국 아파트 분양가 분석하기 (2)

전국 아파트 분양가 분석하기.

2022년 3월 25일
·
0개의 댓글
post-thumbnail

POSCO AI BigData Academy 17th

현재 2월부터 17기 연수생으로 선발되어 인공지능, 빅데이터 교육을 수료중이다작년 말에 이전 기수 선배님(?)의 벨로그를 통해 이 프로그램을 알게 되었다비밀유지 서약서 때문에 자세한 내용은 외부 유출 금지다그래서 내가 공부하면서 얻어낸 산출물 정도만 복습할 겸 정리해보

2022년 3월 24일
·
0개의 댓글
post-thumbnail

airflow 설치 및 로컬에서 실행시키기

airflow 터미널에서 설치 및 실행시켜보기

2022년 3월 21일
·
0개의 댓글
post-thumbnail

DASK #2 | array, df, Xarray

1. DASK arrays 1-1) NUMPY vs DASK Arrays numpy array와 사용 방법이 약간 차이나지만 비슷함 dask array는 chunk size를 확실하게 지정해 주어야 함 dask array를 compute하면 numpy array로

2022년 3월 19일
·
0개의 댓글
post-thumbnail

전국 아파트 분양가 분석하기 (1)

전국 아파트 분양가 분석하기.

2022년 3월 17일
·
0개의 댓글

DASK #1 | Intro

컴퓨팅 리소스를 최대한 활용하려면 동시다발적으로 여러 코어를 사용해야 함스크립트의 단계(처리해야 하는 작업)가 독립적인 경우 둘 이상의 thread로 분리하여 병렬로 실행 가능Multi-thread 사용의 대안은 Parallel ProcessingParallel Pro

2022년 3월 8일
·
0개의 댓글
post-thumbnail

R : Data Frame (데이터 프레임)

데이터프레임은 행과 열로 이루어진 데이터의 집합체로, 행렬과 유사합니다.가장 보편적인 데이터셋 형식이에요!하지만, 행렬과 다른 점은, 데이터프레임에는 자료형이 다른 데이터를 함께 입력할 수 있다는 점입니다.데이터프레임은 data.frame() 함수를 사용하여 만듭니다.

2022년 3월 7일
·
0개의 댓글