# big data

18개의 포스트
post-thumbnail

새로운 데이터 아키텍처의 시대 1편 - Modern Data Architecture

현시대에서 데이터의 중요성은 누구나 인지하고 있는 개념이고 생각합니다. 데이터의 중요성과 더불어 데이터가 다양한 곳에 활용되며, 수집이 되는 데이터의 종류도 많아졌습니다. 이 글에서는 데이터양과 활용성에 증가에 따라 과거부터 지금까지 데이터를 처리하기 위한...

6일 전
·
0개의 댓글
·
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글
·
post-thumbnail

Numpy

머신러닝에서 자주 사용하는 파이썬 라이브러리인 Numpy를 알아보겠습니다.Numpy는 파이썬의 수치 계산에 주로 사용되는 패키지입니다.numpy의 설치는 이전 포스팅과 같이 pip를 통해 해주었습니다.Numpy는 파이썬으로 과학 계산을 하기 위해선 필수적인 패키지입니다

2022년 3월 8일
·
0개의 댓글
·
post-thumbnail

Hadoop eco system의 발전 과정 1부 - Hive 까지

데이터 엔지니어로 일하면서 옆에서 지켜본 빅데이터 처리 시스템의 발전 상을 간략하게나마 정리해보았습니다. 시스템들의 정확한 런칭 시점을 조사하거나 개발자의 의견을 듣고 적는 내용이 아니므로 개인적인 가설이 많이 들어가 있습니다. 회사에서 신입들을 대상으로 설명을 해줄

2022년 2월 15일
·
0개의 댓글
·
post-thumbnail

첫 DAG를 만들어보자

이번 시간에는 직접 DAG를 작성하며, 배울 점들을 배워보자! DAG 구성 만들어볼 DAG는 아래 5가지 Task와 모두 다른 Operator로 구성할 예정이다. SQLite Table을 생성 : SQliteOperator API가 Available한 상태인지 확인 :

2022년 1월 6일
·
2개의 댓글
·

Airflow 설치

이제 로컬에 Airflow를 설치해보자!venv(Virtual Environment)는 일종의 샌드박스이다.venv 안에서 설치한 파이썬 패키지는 외부에 영향을 받거나 미치지 않고,venv를 activate 해야만 설치했던 패키지에 접근 할 수 있다.airflow를 설

2022년 1월 6일
·
0개의 댓글
·

Airflow 동작 방식

Airflow 아키텍쳐와 동작 스케줄

2022년 1월 6일
·
0개의 댓글
·
post-thumbnail

Flink로 시작하는 Stream processing 4 - Testing

개발자마다 조금식 다르겠지만, 제가 처음 개발을 시작 했을때, 제 코드는 완벽할줄 알았습니다. 하지만, 1년 2년 지나고, 다수에 프로젝트를 경험하고, 구현해야 하는 기능에 복잡도가 올라가는 순간, 제일 먼저 의심해야 하는건 제 코드라는 것을 빠르게 깨닫았습니다.

2021년 10월 24일
·
2개의 댓글
·
post-thumbnail

Column Oriented Database - 컬럼형 데이터베이스란?

관계형 데이터베이스(RDB) 는 일반적으로 트랜잭션 응용 프로그램의 경우 데이터 row를 저장하는 데 최적화되어 있지만 Column Oriented Database는 일반적으로 분석 응용 프로그램에서 데이터 Column의 빠른 검색에 최적화되어 있다. 데이터베이스 테이

2021년 8월 7일
·
0개의 댓글
·
post-thumbnail

Data Engineering - OLAP vs. OLTP

Application: Operational->ERP, CRM, legacy apps, etc.Typical users: Staff/CustomersHorizon: Weeks, MonthsRefresh: ImmediateData model: Entity-relation

2021년 7월 6일
·
1개의 댓글
·
post-thumbnail

Data Warehouse Design (데이터 웨어하우스 디자인) - Kimball vs. Inmon Model

비지니스 개발에 있어 데이터 웨어하우스 설계는 필수적이다. 데이터 웨어하우스 설계 방식에는 크게 두가지 기법이 있는데, Kimball method 와 Inmon method 가 있다. 디자인의 이름은 디자인 설계자의 이름을 따서 만들어졌다. 오늘은 두 가지를 비교해

2021년 7월 5일
·
0개의 댓글
·

[hadoop][python] hadoop-streaming wordcount 예제

python으로 wordcount mapper, reducer 구현

2021년 4월 26일
·
0개의 댓글
·

Why is Big Data Analytics important?

The Big Data industry is the most flourishing industry which helps organizations to handle large amounts of data. It involves both qualitative and qua

2021년 3월 9일
·
3개의 댓글
·

Big Data

big data

2021년 3월 8일
·
0개의 댓글
·

[spark] Spark 3 클러스터 설치

두 개의 컴퓨터를 사용하여 hadoop 클러스터 위에서 돌아가는 spark 클러스터를 설치한다.각각 master, worker1라고 한다.이미 hadoop cluster가 구축되어있다는 가정 하에 진행한다.\[hadoop] Cluster 설치 참고Spark Master

2021년 2월 10일
·
0개의 댓글
·

[hadoop] Hadoop 3 클러스터 설치

Namenode랑 Datanode 디렉터리를 삭제한 후 실행하자.NameNode (http://localhost:9870)ResourceManager (http://localhost:8088)MapReduce JobHistory Server (http

2021년 2월 9일
·
3개의 댓글
·
post-thumbnail

웹 스크랩 핑 : 코로나 바이러스 (COVID-19) 데이터를 얻는 방법

새로운 공중 전염성 코로나 바이러스 가 출현 한 이래로 수백만의 삶이 영향을 받아 관련 뉴스가 모든 플랫폼에서 폭발하고 있습니다. 이러한 상황에서 우리는 공식적인 데이터 와 비공식적 인 소스 모두로부터 실시간 데이터 를 수집 하여 대중이 투명한 데이터 소스를 통해이

2020년 7월 16일
·
0개의 댓글
·