# big data

새로운 데이터 아키텍처의 시대 1편 - Modern Data Architecture
현시대에서 데이터의 중요성은 누구나 인지하고 있는 개념이고 생각합니다. 데이터의 중요성과 더불어 데이터가 다양한 곳에 활용되며, 수집이 되는 데이터의 종류도 많아졌습니다. 이 글에서는 데이터양과 활용성에 증가에 따라 과거부터 지금까지 데이터를 처리하기 위한...

Spark Basic Operations
Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

Numpy
머신러닝에서 자주 사용하는 파이썬 라이브러리인 Numpy를 알아보겠습니다.Numpy는 파이썬의 수치 계산에 주로 사용되는 패키지입니다.numpy의 설치는 이전 포스팅과 같이 pip를 통해 해주었습니다.Numpy는 파이썬으로 과학 계산을 하기 위해선 필수적인 패키지입니다

Hadoop eco system의 발전 과정 1부 - Hive 까지
데이터 엔지니어로 일하면서 옆에서 지켜본 빅데이터 처리 시스템의 발전 상을 간략하게나마 정리해보았습니다. 시스템들의 정확한 런칭 시점을 조사하거나 개발자의 의견을 듣고 적는 내용이 아니므로 개인적인 가설이 많이 들어가 있습니다. 회사에서 신입들을 대상으로 설명을 해줄

첫 DAG를 만들어보자
이번 시간에는 직접 DAG를 작성하며, 배울 점들을 배워보자! DAG 구성 만들어볼 DAG는 아래 5가지 Task와 모두 다른 Operator로 구성할 예정이다. SQLite Table을 생성 : SQliteOperator API가 Available한 상태인지 확인 :
Airflow 설치
이제 로컬에 Airflow를 설치해보자!venv(Virtual Environment)는 일종의 샌드박스이다.venv 안에서 설치한 파이썬 패키지는 외부에 영향을 받거나 미치지 않고,venv를 activate 해야만 설치했던 패키지에 접근 할 수 있다.airflow를 설

Flink로 시작하는 Stream processing 4 - Testing
개발자마다 조금식 다르겠지만, 제가 처음 개발을 시작 했을때, 제 코드는 완벽할줄 알았습니다. 하지만, 1년 2년 지나고, 다수에 프로젝트를 경험하고, 구현해야 하는 기능에 복잡도가 올라가는 순간, 제일 먼저 의심해야 하는건 제 코드라는 것을 빠르게 깨닫았습니다.

Column Oriented Database - 컬럼형 데이터베이스란?
관계형 데이터베이스(RDB) 는 일반적으로 트랜잭션 응용 프로그램의 경우 데이터 row를 저장하는 데 최적화되어 있지만 Column Oriented Database는 일반적으로 분석 응용 프로그램에서 데이터 Column의 빠른 검색에 최적화되어 있다. 데이터베이스 테이

Data Engineering - OLAP vs. OLTP
Application: Operational->ERP, CRM, legacy apps, etc.Typical users: Staff/CustomersHorizon: Weeks, MonthsRefresh: ImmediateData model: Entity-relation

Data Warehouse Design (데이터 웨어하우스 디자인) - Kimball vs. Inmon Model
비지니스 개발에 있어 데이터 웨어하우스 설계는 필수적이다. 데이터 웨어하우스 설계 방식에는 크게 두가지 기법이 있는데, Kimball method 와 Inmon method 가 있다. 디자인의 이름은 디자인 설계자의 이름을 따서 만들어졌다. 오늘은 두 가지를 비교해
[hadoop][python] hadoop-streaming wordcount 예제
python으로 wordcount mapper, reducer 구현
Why is Big Data Analytics important?
The Big Data industry is the most flourishing industry which helps organizations to handle large amounts of data. It involves both qualitative and qua
[spark] Spark 3 클러스터 설치
두 개의 컴퓨터를 사용하여 hadoop 클러스터 위에서 돌아가는 spark 클러스터를 설치한다.각각 master, worker1라고 한다.이미 hadoop cluster가 구축되어있다는 가정 하에 진행한다.\[hadoop] Cluster 설치 참고Spark Master
[hadoop] Hadoop 3 클러스터 설치
Namenode랑 Datanode 디렉터리를 삭제한 후 실행하자.NameNode (http://localhost:9870)ResourceManager (http://localhost:8088)MapReduce JobHistory Server (http

웹 스크랩 핑 : 코로나 바이러스 (COVID-19) 데이터를 얻는 방법
새로운 공중 전염성 코로나 바이러스 가 출현 한 이래로 수백만의 삶이 영향을 받아 관련 뉴스가 모든 플랫폼에서 폭발하고 있습니다. 이러한 상황에서 우리는 공식적인 데이터 와 비공식적 인 소스 모두로부터 실시간 데이터 를 수집 하여 대중이 투명한 데이터 소스를 통해이