post-thumbnail

Airflow Xcom 인터페이스

Airflow는 기본적으로 하나의 오퍼레이터의 결과가 다른 오퍼레이터에 영향을주지 않는다. 각각이 독립적으로 실행되기 때문에 서로 통신할 수단이 없다. 하지만 워크플로우를 만들다보면 이전 작업의 결과, 요소 등을 다음 작업에 전달할 경우가 생긴다. 이때 Xcom을 이용

2022년 1월 28일
·
0개의 댓글

Airflow Tutorial

Airflow는 task를 정의하고 task 간의 의존관계를 설정하여 DAG를 만들면 그 순서대로 작업을 실행시켜준다.task정의 방법에는 크게 세 가지가 있다1\. Operator2\. Sensor3\. Taskflowoperator는 가장 기본적은 airflow의

2022년 1월 28일
·
0개의 댓글

Airflow 시작하기

Airbnb에서 개발한 데이터파이프라인 오픈소스 워크플로우 관리 툴python으로 개발됐고 python으로 파이프라인 관리 가능스케쥴링, 배치 데이터 처리 등 다양한 작업을 자동화 하는데 사용DAG (Directed Acyclic Graph)를 사용해 워크플로우를 작성

2022년 1월 28일
·
0개의 댓글

NoSQL

Not Only SQL. 지금까지 많이 사용되던 RDBMS의 특징들 외에 다른 특성들을 가진 데이터베이스를 말한다. 기존의 관계형 데이터베이스 시스템이 가진 ACID 특성을 제공하지 않고 뛰어난 확장성, 성능 등을 가진 데이터베이스를 가리킨다.스키마가 없이 자유로운 데

2021년 11월 24일
·
0개의 댓글

객체 지향 프로그래밍

State: Complete작성일시: 2021년 11월 23일 오후 9:15프로그래밍 패러다임 중 하나로, 필요한 데이터를 추상화시켜 객체를 만들고 그 객체 간의 상호작용을 통해 로직을 구성하는 프로그래밍 방식코드 재사용 용이남이 만든 클래스를 가져와서 쉽게 사용할 수

2021년 11월 23일
·
0개의 댓글
post-thumbnail

[Hadoop] Hadoop Ecosystem

하둡은 여러대의 컴퓨터 클러스터에서 대규모 데이터를 분산처리할 수 있게 해주는 프레임워크이다. 하둡 분산처리 시스템 (HDFS)과 MapReduce 프레임워크로 시작했으나 여러 데이터 저장, 실행 엔진, 처리 등 다양한 하둡 생태계 전반을 포함하는 의미로 발전하고있다.

2021년 10월 31일
·
0개의 댓글
post-thumbnail

[Hadoop] 하둡 설치하기

State: Complete최종 편집: 2021년 10월 29일 오전 11:48Hortonworks HDP는 아파치에서 제공하는 Hadoop관련 프로젝트들을 하나의 가상 이미지로 묶은 것으로, 각 툴들을직접 설치하는 과정과 시간을 획기적으로 줄일 수 있다.Hortonw

2021년 10월 29일
·
0개의 댓글

[SQL] JOIN

A 테이블과 B 테이블의 일치하는 부분을 기준으로 두 테이블을 합치는 것.해커랭크 SQL 문제에서 BETWEEN 활용이 나와 복습 겸 적어둔다.처음에 문제를 보고 Grade에 맞는 Marks를 새로 열로 만들고 (WHEN THEN을 통해) 해야하는 건가 생각했는데 보통

2021년 10월 4일
·
0개의 댓글

크롤링? 스크래이핑?

개인적으로 토이프로젝트를 하면서 스크래이핑을 해봤다. 사실 크롤링과 스크래이핑이 정확히 어떻게 차이가 있는지 몰랐지만 내가 진행한 부분은 단순하게 html을 읽어와서 css selector를 찾고 그 부분의 내용을 저장하는 것이었다. 그리고 스크래이핑이라고 배워서 스크

2021년 10월 1일
·
0개의 댓글

[LeetCode] 121. Best Time to Buy and Sell Stock

카데인 알고리즘 사용하여 풀이 최대 서브 배열 문제를 푸는 카데인 알고리즘을 사용하여 풀 수 있다. 다만, 서브 배열의 합이 아닌 최고점과 최저점의 차이라는 부분만 다르다. 배열의 앞쪽부터 순회하며 현재값과 현재까지 최소값을 비교 현재의 profit과 (현재값)

2021년 9월 26일
·
0개의 댓글
post-thumbnail

[LeetCode] 42. Traping rain water

투포인터를 이용해 물의 부피 더해간다.left와 right는 양 끝에서 시작하고 left_max와 right_max는 현재 위치의 높이와 기존의 최대값 중 더 큰 값이 됨.만약 오른쪽 최대값이 더 크다면 (왼쪽 최대값 - 왼쪽 현재값)을 volume에 더하고 left는

2021년 9월 24일
·
0개의 댓글
post-thumbnail

[데이터베이스] 1. DBMS

초기 데이터베이스는 파일 시스템 위에서 만들어졌다.Redundency: 각 파일마다 중복되는 데이터를 각각 가지고 있어야함Inconsistency: 데이터에 변경사항이 생기면 모든 파일을 전부 수정해야 하는데, 이 과정에서 비일관성이 생길 확률 높다Data isolat

2021년 9월 21일
·
0개의 댓글

[데이터베이스] 0. CS기초 시작

CS 기초를 공부하지 않은 비전공자가 개발자가 되기 위해서는 노력할게 많을 것이다.자료구조/알고리즘은 코딩테스트를 준비하면서 정리는 안했지만 자주 봤고 그래도 기초가 아예 없다고는 할 수 없을 것 같아서 첫 번째 과목으로 데이터베이스를 선정했다.들을 강의는 edwith

2021년 9월 19일
·
0개의 댓글
post-thumbnail

Github profile 꾸미기

README.md를 통해 본인의 프로필을 꾸밀 수 있는 기능이 있다. 작년에 나온 기능이라고 한다.간단하게 markdown 작성을 통해 원하는 내용을 채울 수 있다.내프로필본인의 username과 동일한 repo를 만들고 README.md를 작성하면 끝!배지 만들기는

2021년 9월 15일
·
0개의 댓글

Pymongo

로컬에서 MongoDB를 쓸수도 있지만 클라우드와 연결하여 쓸 수 있다.Update 부분에서 $lt, $set 등을 사용했는데, 이것들이 무엇인지 알아보자$lt : 미만$lte : 이하$gt : 초과$gte : 이상in은 특정 키 값이 해당되는 경우를 말한다db.col

2021년 9월 4일
·
0개의 댓글
post-thumbnail

Bootstrap 적용하기

아직 개발의 끈이 짧기 때문에 프론트엔트 부분을 직접 짜는 것은 너무 큰 난관이다.이런 나를 위한 만들어진 템플릿 받아쓰기를 가능하게 해주는 Bootstrap을 이용했다.원하는 템플릿을 찾고 다운을 받으면 다음과 같은 파일을 얻을 수 있다.asset, css, js를

2021년 8월 24일
·
0개의 댓글
post-thumbnail

MongoDB

부트캠프 기간 동안 웹앱을 두 번 정도 만들었는데, 모두 elephant SQL 을 통해 Postgre SQL을 사용했다. 이번에는 Mongo DB를 한 번 써보려고 한다.NoSQL은 Not only SQL, SQL뿐만 아니다 라는 의미를 가지고 있다. 즉, 관계형 데

2021년 8월 23일
·
0개의 댓글

파이썬 데코레이터

파이썬 데코레이터 만들기와 사용법에 대해 조금 정리해둔다.데코레이터?함수를 인자로 받는 함수다!원본 함수를 수정하지 않고 앞뒤로 새로운 로직을 추가한 새 함수를 만들 수 있다함수도 객체이기 때문에 함수 객체의 주소를 다른 함수에 파라미터로 넘길 수 있는 것이다. 리턴

2021년 7월 20일
·
0개의 댓글

OOP

얄팍하게 알고있던 객체 지향에 대해서 정리한다.객체지향에 대해 이야기할 때 가장 먼저 헷갈리는 부분이라고 생각한다. 세 가지 용어는 궁극적으로 같은 것을 가리킨다고도 할 수 있지만 상황에 따라 달라지는 이름이라고 할 수 있다. 클래스: 만들고자 하는 객체의 설계도 클

2021년 7월 12일
·
0개의 댓글

데이터 엔지니어링?

섹션3에서 했던 데이터 엔지니어링에 흥미가 생겨 더 알아보다 보니 백엔드 개발자와의 차이가 뭔지 궁금해졌다. 성급한 결론을 내리자면 끝까지가면 백엔드 엔지니어나 데이터 엔지니어나 큰 차이가 없는 것 같다. 다만, '데이터'라는 이름이 붙은 만큼 더 데이터에 집중하는게

2021년 7월 12일
·
0개의 댓글