Day1 학습 내용 정리: 효과적으로 문제풀이를 진행하기 위해서 다양한 자료구조를 알아두어야 한다.기초 자료형태인 list, dictionary, class를 살펴보았다.list의 경우 다음 코드를 확인하자.del, pop모두 제거한다는 방식은 같으나, del은 리턴값
Day2 학습 내용 정리 지난 시간에 이어 자료구조들에 대해 알아보고자 한다. ✅ 자료구조 > 추상적 자료구조 Data : 정수, 문자열, 레코드 A set of operations : 삽입, 삭제, 순회, 정렬, 탐색, etc 🎈 Linked List > 각
Day3 학습 내용 정리 어제 Day2 연결리스트, 스택에 이어 오늘 학습할 내용은 마찬가지로 자료구조인데 학습할 종류로는 queue, circular queue, heapq, 트리, 이진 트리 등이다! ✅ Queue > - FIFO (선입선출 형태) 특징을 가지는
✅ 문제 풀이 - 프로그래머스 🎈 예산
Day 4 학습 내용 정리 오늘 학습 내용은 코딩테스트 문제 풀이 위주이다. ✅ Hash 🎈 완주하지 못한 선수 > 마라톤에 참여한 선수들의 이름 배열 participants와 완주한 선수들의 이름이 담긴 배열 completion이 주어질 때, 완주하지 못한 선수
1주차 마지막 학습 내용 정리 ✈️최소 or 최대 원소를 빠르게 찾을 수 있음Heapify (최소힙 구성) // insert (삽입) - O(logN)의 복잡도를 가짐완전 이진 트리로 구성되며 heap sort, 우선순위 큐로 응용 가능주어진 모든 음식을 스코빌 지수
2주차 Day1 학습 내용 정리본격적으로 웹 프레임워크 학습에 들어간다.UI 측면에서 VScode가 더 좋은 거 같다는 생각이 들었고, HTML, CSS 사용에 있어 Live Server 등 사용으로 좀 더 사용자입장에서 편리하다는 생각이 들었다.: 웹 브라우저가 이해
✅
HTML Parser인 bs4 라이브러리를 사용하고자 한다.기존의 body를 이용해 모든 html 코드를 텍스트로 가져오는 과정을 거쳤는데, BeautifulSoup4를 통해 원하는 elements만 가져오도록 할 수 있다.간단한 구현 코드는 다음과 같다!실습을 통해
이전 학습으로 동적 웹사이트는 브라우저의 자동화가 필요함을 알게 되었고 이를 해결하고자 파이썬 라이브러리인 Selenium에 대해 간단히 알아보았다. 오늘은 selenium을 직접 구현해보면서 작동 방식에 대해 알아보고자 한다.웹 브라우저와의 연동을 위해 WebDriv
✅ Visualization
금일 정리할 내용은 파이썬 웹 프레임워크인 장고!우선 가상환경에 대해 알아보자.Django 프로젝트 진행 시 로컬서버에 프로젝트를 만들어 작업하지 않고 프로젝트마다 가상환경을 설정해준다. 그 이유로, 진행하는 각 프로젝트 별 라이브러리, 모듈 버전이 다르기 때문이다.코
장고에서는 모델(Question, Choice)를 통해 DB 정보를 저장하고 읽어오면, View : 앞서 읽어온 정보를 활용!Template : html을 활용하여 데이터를 웹 사이트에 잘 표시하도록 도와주는 도구!template활용을 위해선, 만들어 놓은 app에 새
금일 학습 내용은 django rest 프레임워크에서 등장하는 새로운 개념인 Serializer각 용어를 살펴보면 다음과 같다!Serialize : 모델 인스턴스, QuerySet 같은 데이터를 JSON 형식으로 변환하는 작업Deserialize : JSON 형식의 데
깃헙 PR, VSCODE와의 Connect 정리 내용
장고 - 다양한 방식으로 User 생성, User 권한, POSTMAN, 상속 관련 학습
Related Field, Model 기능 구현, Validation & Testing
Project1 진행 시작 유튜브 카테고리 별 댓글 키워드 유사도 분석 진행하여 데이터 시각화를 통해 인사이트를 도출하고 이를 활용한 웹 사이트를 구축하기!
YOUTUBE DATA(Comment) Crawling
✅ TIL
✅ hangman_game > 흔히 알고 있는 단어를 주어진 제한 안에 맞추어야 하는 행맨 게임을 파이썬으로 구현해보려 한다. >
관계형 데이터베이스 학습 내용구조화된 데이터를 저장하고 질의할 수 있도록 해주는 Storage엑셀 스프레드시트 형태의 테이블로 데이터를 정의, 저장 (컬럼, 레코드 형태)RDB를 조작하는 프로그래밍 언어가 SQL테이블 정의 (DDL) , 테이블 데이터 조작, 질의 (D
✅
오늘은 어제 select문에 이어 GROUP BY 관련 함수, CTAS 문법에 대해 알아보고자 한다.✅
JOIN & CTE 학습 내용 정리 및 예제 풀이
이번주차 DW와 SQL 기본 마무리ATOMIC하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법.데이터의 정합성을 보장하기 위한 기능논리적인 작업 자체가 ALL(commit) OR NOTHING(ROLLBACK)을 보장하는 것Atomicity, Con
AWS EC2, Elasticbeanstalk
IAM, S3, SpringBoot, CI/CD, VPC, Elastic Beanstalk
✅ C
lambda, Container, CloudWatch, ECS/ECR, APIGateway
DW, ETL, ELT(dbt), DW Options
Redshift Training
Redshift Serverless, ML(SageMaker)
✅ Snowflake
Dashboard & AWS CLI Special lesson
Project2 - DW : Bigquery
REST, REST-API 정리
Bigquery GCS Connection
Cloud Function (python)
scheduler로 빈도를 설정해 원하는 작업을 예약걸어 실행시킬 수 있다.이때 빈도는 unix.cron 형태로 다음 과정을 거친다.예시는 다음과 같다.만일 6월 1일부터 9일까지 원하는 작업을 매일 자정에 처리한다면 다음과 같다.0 0 1-9 6 \*이번 프로젝트를
Airflow
Airflow, WSL2, Docker 설치
docker 기반 Airflow설치
✅ Airflow로 코드 작성
Airflow 마무리
MySQL - Airflow - S3 - Redshift 연동
docker, k8s 개념 이해
✅ 웹서비스 docker로 실행하기
✅ 다수의 container로 SW 실행하기
docker compose yaml 정리
A/B Test
k8s 기본 이론
slack & Airflow 연동
gsheet & Airflow 연동
Dag dependencies
dbt
✅ Data Catalog
Project3 Day1 GCP -> Airflow
Project3 진행상황
Project3 Day3
dag 수정
spark & Hadoop
spark
spark SQL
SPARK 내부 동작
AWS EMR launch & PySpark Job launch
stream data - kafka
✅ spark 이전 / 이후 데이터 부서 환경 변화
kafka architecture & functions
kafka cli, producer, consumer practice
kafka (spark streaming)
ML - Practice
ML - Linear Algebra
Probability
Linear Regression
Linear Classification
sparkml
sparkml - repartition
skew JOIN & Partition
sparkml
sparkml parameter Tuning
Final Project day 1
Final Project Day 2
crawling
✅ crawling 완료 + django Rest framework
AWS
프로젝트 회고
✅ To do list > > 1. AWS EC2 연결 및 data landing 작업 시작 2. 데이터 병합 및 추천 모델 구현 > > 데이터 로딩 작업은 모두 airflow dag를 활용하여 진행할 계획 > 🎈 AWS EC2 loading AWS S3에 데이터를 적재함에 있어 Naming rule은 다음과 같다. > > > > 🎈 GCS Data ...
✅ Recommend Model
GCP Cloud Composer
GCP VM - Airflow
Recommend Model
프로젝트를 진행하면서 Git 관리 역시 진행하게 되었는데, 나중에 취업을 하든 개인적으로 토이프로젝트를 진행하든 완벽하게 정리를 해둔다면 추후 도움이 많이 될 것 같아 작성. ✅ Github > Git이란 버전 관리를 위한 SW이고, 이러한 git을 사용해 서비스하는