
이걸로 dataframe이 메모리를 얼마나 사용하는지 확인해보면 3기가가 넘는 메모리를 사용중이다.현재 회사 인프라 구조에서 t3.small 인스턴스에 docker를 활용해 여러 환경을 실행하고 있기 때문에실제 운영중인 인스턴스에 추가로 올리기가 불가능한 상황이다.(터

DuckDB 공식 홈페이지https://duckdb.org/docs/installation/index?version=latest&environment=js홈페이지의 가이드를 따라서, Homebrew를 사용해 설치한다.설치는 11초 정도 소요된다.접속하면 사진과

1. 비교 작업에 사용되는 테이블 테이블 : points(MySQL) rows : 13214469 rows columns : 6 columns pointId : uuid userId : int unsigned amount : int
Airflow를 배워야 하는 이유?데이터 파이프라인?데이터 수집데이터 전처리모델모델 추론시각화메일로 전송이러한 파이프라인 속 작업들을 자동화 할 수 있다.스케줄링, 제어 작업을 오케스트레이션이라 하고 에어플로우는 오케스트레이션 도구airflow에서 워크플로우를 dag라
오퍼레이터특정행위를 할 수 있는 기능을 모아놓은 클래스, 설계도Task오퍼레이터에서 객체화(인스턴스화)되어 DAG에서 실행 가능한 오브젝트Bash 오퍼레이터쉘 스크립트 명령을 수행하는 오퍼레이터Task의 수행 주체스케줄러DAG Parsing 후 DB에 정보저장DAG 시
task가 실행되어야 하는 시간(주기)을 정하기 위한 다섯개의 필드로 구성된 문자열{분} {시} {일} {월} {요일}특수문자들모든 값범위 지정, 여러 값 지정/ 증가 값 지정L 마지막 값(일, 요일에만 설정 가능)일에 L 입력시 해당 월의 마지막 일 의미요일에 L 입

Task 연결 방법 종류\>>, << 사용하기 (Airflow 권장방식)t1 >> t2 (선행 >> 후행)t1 >> t2, t3 (t1수행후 t2, t3 수행)t1 >> t2, t3 >> t4 << t5 이렇게 한 줄로 표현가능t1 >> t2t1

Shell 스크립트의 이해Unix / Linux Shell 명령을 이용하여 만들어지고 인터프리터로 한 줄씩 처리되는 파일echo, mkdir, cd, cp, tar, touch 등 기본적인 쉘 명령어를 입력하여 작성변수를 입력받거나 for, if 문 그리고 함수도 사용
Email Operator 사용이메일 전송하는 오퍼레이터이메일 전송을 위한 사전 셋팅 작업 필요사전 설정 작업(Gmail)구글 메일 서버를 사용Gmail → 설정 → 모든 설정 보기 → 전달 및 POP/IMAP → IMAP 사용구글 계정관리 → 보안 → 2단계 인증 →
라이브러리 가져오는법from airflow.operators.python import PythonOperatorairflow.operators.python 모듈의 오퍼레이터들PythonOperator파이썬 함수를 실행시키는 오퍼레이터BranchPythonOperator
파이썬 모듈 경로from airflow.operators.python import PythonOperatorAirflow/operators/python 파일에서 PythonOperator 클래스를 가져온다airflow는 자동적으로 dags 폴더와 plugins 폴더를