
시간은 끊임없이 흐르지 그에 따라 난 내 발을 구르지..(비와이 - The Time Goes On)아무 것도 안한거 같은데 눈 떠보니 대학교 4학년 2학기. 진짜 발만 동동 굴렀다. 공부를 아예 안한건 아니지만 공부하면서 다른 사람 풀이를 보면 진짜 벽이 느껴지더라.

학습주제 자료구조 & 알고리즘, 배열, 정렬 & 탐색, 재귀 알고리즘, 알고리즘 복잡도

학습주제 연결 리스트, 스택

학습주제 큐, 환형 큐, 우선순위 큐,트리, 이진트리, 이진탐색트리,힙

학습주제 알고리즘을 적용한 코딩테스트 문제 풀이(해시(Hash), 그리디(Greedy), 정렬(Sort))

학습주제 알고리즘을 적용한 코딩테스트 문제 풀이(힙(Heap), 동적계획법(Dynamic Programming), 깊이/너비 우선 탐색(DFS/BFS) )

style.css 
📖 학습주제 > HTTP, 웹스크래핑과 웹 크롤링 인터넷과 웹 >인터넷 : 여러 컴퓨터끼리 네트워크를 연결한 것 웹 : 인터넷 상에서 정보를 교환하기 위한 시스템 발전 과정 최초의 컴퓨터 출현, 문서 작업 및 복잡한 계산 등 인간이 하는 일을 위임 두 컴퓨터를

BeautifulSoup4를 이용한 웹 스크래핑 실습, 동적 웹페이지지난 실습들에서 requests 모듈을 이용해서 HTTP 요청을 보내고, 이 응답을 받아 여러 요소를 보았다. 그러나 res.text를 했을 때, 해당 내용이 아주 긴 텍스트로 와서 분석하기 어려웠던

Selenium 실습Python을 이용해서 웹 브라우저를 조작할 수 있는 자동화 프레임워크Webdriver : 웹 브라우저를 제어할 수 있는 자동화 프레임워크, 드라이버 객체는 특정 브라우저에 종속됨웹 브라우저와 연동하기 위해서는 Webdriver가 필요하다. 실습에서

📖 학습주제 > 시각화 시각화 이제까지 데이터 스크래핑을 통해 데이터를 추출하는 것을 실습했다. 그러나 결과들을 보면 텍스트, 리스트 등으로 얻을 수 있었다. 이렇게 얻은 데이터들이 유의미하다고는 아직 말할 수 없다. 좀 더 가공을 거쳐 인사이트를 얻기 편하게 만들

Django 실습파이썬을 설치한 후 cmd창을 통해 진행한다.기존에 프로젝트 폴더가 존재하지 않았던 경우에는 설정한 프로젝트 이름에 따라 새롭게 폴더가 생성된다.mysite라는 프로젝트를 생성한다.실행한 서버로 가보자polls가 생긴 것을 볼 수 있다.웹 서버가 페이지

Django 실습뷰(Views)와 템플릿(Templates)

시리얼라이저시리얼라이저란 아래의 두 작업을 모두 수행할 수 있는 모델이다.모델 인스턴스나 QuerySet과 같은 데이터들을 JSON형식의 파일로 변환하는 작업JSON형식의 파일을 J모델 인스턴스나 QuerySet과 같은 데이터들로 변환하는 작업시리얼라이저를 구현할 새로

📖 학습주제 > 유저 User 추가하기 settings.py에 django.contrib.auth가 존재해 유저를 추가하거나 로그인하는 등을 할 수 있다. polls/models.py questions라고 지정된 related_name을 통해 auth.User

📖 학습주제 > RelatedField Testing RelatedField > 모델 사이의 관계를 나타내기 위해 사용되는 클래스 PrimaryKeyRelatedField : id(PrimaryKey)를 표시한다. PrimaryKeyRelatedField(m

첫번째 프로젝트가 시작되었다. 지금까지 배웠던 것들을 사용해 크롤링 기반 웹데이터로 웹사이트를 만들어야 한다.주말부터 오늘 아침까지 미리 팀원들과 회의를 하면서 주제를 선정하고 역할 분담을 마쳤다. 나는 웹 크롤링 파트를 맡았다.주제로는 채용 사이트 이용한 기술 스택

📖 학습주제 데이터베이스 SQL 데이터 웨어하우스 클라우드 관계형 데이터베이스 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지 (비관계형 데이터 x) 엑셀 스프레드시트 형태의 테이블로 데이터를 정의하고 저장 (테이블에는 컬럼(열)과 레코드(행)이 존재)

SQL다수의 SQL 문을 실행한다면 세미콜론으로 분리가 필요함SQL 주석 \- -- : 인라인 한줄짜리 주석 \- /\* -- \*/: 여러 줄에 걸쳐 사용 가능한 주석테이블 생성CTAS: CREATE TABLE table_name AS SELECT select

SQL테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산할 수 있음그룹핑을 할 필드를 결정 (하나 이상의 필드가 될 수 있음)GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용)그룹별로 계산할 내용을 결정Aggregate함수를 사용COUNT, S

데이터 웨어하우스와 SQL 기본에 대해 배우고 이를 바탕으로 데이터 분석에 대해 학습 (4)두 개 혹은 그 이상의 테이블들을 공통 필드를 병합스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용된다.양쪽 테이블에서 매치가 되는 레코드들만 리턴함양쪽 테이

데이터 웨어하우스와 SQL 기본에 대해 배우고 이를 바탕으로 데이터 분석에 대해 학습 (5)Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는방법 \-> 트랜잭션으로 묶인 SQL중 하나라도 실패하면 실행 전으로 돌아감(ROLLBACK)DDL이나

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (1) 클라우드 컴퓨팅 클라우드 컴퓨팅 IT 리소스를 인터넷을 통해 온디맨드로 제공하고 사용한 만큼만 비용을 지불하는 방식 물리적 데이터 센터와 서버를 구입, 소유 및 유지 관리하는 대

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (2) DB SQL vs NoSQL | SQL | NoSQL | | :-: | :-: | |관계형 데이터베이스 | 비관계형 데이터베이스 | | 테이블 기반 | 문서, 키-값, 그래프

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (3) IAM(Identity and Access Management) AWS 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스 리소스를 사용하도록 인증(로그인) 및 권한 부여(

가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (4)SpringBoot 구성VPC 구성Elasticbeanstalk 구성콘솔접속RDSFrontCI/CDRoute53intellij를 이용한 프로젝트 생성한다.깃허브에 새 리포지토리를 만든 후 터미널에서 g

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (5) Docker 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는 소프트웨어 플랫폼 소프트웨어를 컨테이너라는 표준화된 유닛으로 패키징하며 이 컨테이너에는 라이브러리, 시스템

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (1) 데이터 팀의 역할 데이터 조직의 비전 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성 -> 대부분의 회사에서 직접 매출을 올리는 것이 아니라 회사가 본업을 더

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (2) Redshift 특징 소개 Redshift의 특징 AWS에서 지원하는 데이터 웨어하우스 서비스 2 PB의 데이타까지 처리 가능 최소 160GB로 시작해서 점진적

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (3) Redshift 권한과 보안 사용자별 테이블 권한 설정 일반적으로 사용자별 테이블별 권한 설정은 하지 않음 (사용자, 테이블이 많아지면 너무 복잡해지고 실수의 가

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (4) Snowflake 특징 소개 Snowflake 소개 2014년에 클라우드 기반 데이터웨어하우스로 시작 글로벌 클라우드위에서 모두 동작 (AWS, GCP, Azur

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (5) 다양한 시각화 툴 소개 시각화 툴 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함 KPI (Key Performance Indic

프로젝트 : 데이터 웨어하우스를 이용한 대시보드 구성 Day 36(2023. 12. 04.) 주제 선정 및 역할 분담 주제 : 농산물 가격 데이터를 통한 물가 변동 조회 전체적인 구상 : API(+크롤링) -> S3 -> Redshift -> Superset 기능

📖 학습주제 > 데이터 파이프라인, Airflow (1) 데이터 파이프라인(ETL) 소개 데이터의 흐름과 데이터 팀의 발전 단계 데이터 웨어하우스의 구성 예 데이터 파이프라인 ETL : Extract, Transform and Load Data Pipeline,

📖 학습주제 > 데이터 파이프라인, Airflow (2) Airflow 설치 직접 설치하고 운영 클라우드 사용 (프로덕션 환경에서 선호됨) AWS: MWAA (Managed Workflows for Apache Airflow) 사용 구글 클라우드: Cloud Co

📖 학습주제 > 데이터 파이프라인, Airflow (3) Hello World 예제 프로그램 살펴보기 PythonOperator 이용 PythonOperator python_callable : 태크스가 실행 될 때 불러올 파이썬 함수 params : 함수의

데이터 파이프라인, Airflow (4)위도/경도를 기반으로 그 지역의 기후 정보를 알려주는 서비스무료 계정으로 api key를 받아서 이를 호출시에 사용https://openweathermap.org/priceAPI Key를 open_weather_api_k

데이터 파이프라인, Airflow (5)

📖 학습주제 개발환경 구축을 위한 Docker와 K8S 실습 (1) Airflow 운영상의 어려움 데이터 품질이나 데이터 리니지 이슈 이외에도 다양한 이슈들이 발생 라이브러리 충돌 라이브러리/모듈의 충돌 이슈가 발생하기 시작함 DAG에 따라 실행에 필요한 라이브러

📖 학습주제 개발환경 구축을 위한 Docker와 K8S 실습 (2) 웹 서비스를 Docker로 실행해보기 웹서비스를 Docker로 구동해보는 전체 과정 hangman_web이라는 repo의 main에 코드가 머지될 때마다 다음을 수행 테스트 수행 Docker Im

개발환경 구축을 위한 Docker와 K8S 실습 (3)docker build --platform=linux/amd64 -t \~\~~ : 이미지 빌드docker images or docker image ls : 현재 로컬에 저장된 이미지 목록docker rmi or o

개발환경 구축을 위한 Docker와 K8S 실습 (4)다수의 Container로 소프트웨어가 구성되는 경우 사용할 수 있는 툴 + 환경설정파일 \- docker-compose.yml로 설정 \- 여기서 다양한 테스트등도 수행가능 \- 다양한 버전을 만드는 것도 일

개발환경 구축을 위한 Docker와 K8S 실습 (5)Docker Image \- DockerfileDocker ContainerDocker Hub (hub.docker.com)Docker Compose \- 다수의 Docker Container들을 관리 \- doc

📖 학습주제 > Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (1)

📖 학습주제 > Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (2) 구글 시트 연동하기 구글 시트 => Redshift table 구글 시트를 테이블로 복사 구현 절차 구글 클라우드에 로그인해 시트 API 활성화하고 구글 서비스 어카운트

Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (3)주기적 실행 : schedule로 지정다른 Dag에 의해 트리거 \- Explicit Trigger: Dag A가 분명하게 Dag B를 트리거 (TriggerDagRunOperator) \-

📖 학습주제 > DBT 소개, 데이터 디스커버리, 툴 학습 (1) 프로덕션 사용을 위한 Airflow 환경설정 알아야 할 것 airflow.cfg is in /var/lib/airflow/airflow.cfg Any changes here will be refle

DBT 소개, 데이터 디스커버리, 툴 학습 (2)많은 dimension 테이블들은 크기가 작고 많이 변하지 않는데, Seeds는 이를 파일 형태로 데이터웨어하우스로 로드하는 방법 \- Seeds는 작은 파일 데이터를 지칭 (보통 csv 파일)dbt seed를 실행해서

프로젝트 : End-to-end 데이터 파이프라인 구성하기 Day 56(2024. 01. 08.) 주제선정 : 기상상태에 따른 따릉이 대여량 변화 역할분담 : 데이터수집 관련해서 맡기로 했다. 열린 데이터 광장에서 사용할 데이터의 api를 받아 시작하고 나서 여러

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (1) 빅데이터의 정의와 예 빅데이터의 정의 1. 서버 한대로 처리할 수 없는 규모의 데이터 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저(John Rau

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (2) Spark 데이터 처리 Spark 데이터 시스템 아키텍처 데이터 병렬처리가 가능하기 위해서는 데이터가 먼저 분산되어야함 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB)

빅데이터 처리 시스템, Hadoop, Spark (3)데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술구조화된 데이터를 다루는한 SQL은 데이터 규모와 상관없이 쓰임모든 대용량 데이터 웨어하우스는 SQL 기반 \- Redshift, Snowflake, BigQ

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (4) Spark 파일 포맷 파일 포맷 데이터는 디스크에 파일로 저장되고 일에 맞게 최적화 필요함 Unstructured Text Semi-structured JSON XML CSV 이상 HUMA

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (5) AWS Spark 클러스터 론치 AWS에서 Spark을 실행하려면 -> EMR (Elastic MapReduce) 위에서 실행하는 것이 일반적 EMR AWS의 Hadoop 서비스 (On-dem

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (1) 구글이 데이터 분야에 끼친 영향 구글 검색 엔진의 등장 1995년 스탠포드 대학에서 박사과정으로 있던 래리 페이지와 세르게이 브린이 1998년에 발표한 웹 검색 서비스 그 전까지의

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (2) Udemy 데이터팀 빌딩 여정 2014년 8월 데이터 엔지니어링팀 처음 빌딩 ▹ 데이터 웨어하우스 도입 (Redshift) ▹ ETL 프로세스 개발 처음에는 crontab으로 관리하

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (3) Kafka 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Scalabilit

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (4) Client Tool Kafka CLI Tools 접근 방법 docker ps를 통해 Broker의 Container ID 혹은 Container 이름 파악 해당 컨테이너로 로그인

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (5) Spark Streaming Spark의 등장 버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 나중에 Databricks라는 스타트업 창업 하둡의 뒤를 잇

머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (1)주요 단계는 다음과 같다.큰 그림을 본다. (look at the big picture)데이터를 구한다. (get the data)데이터로부터 통찰을 얻기 위해 탐색하고 시각화한다. (discover a

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (2) 머신러닝을 위한 기초 선형대수 선형대수를 알아야 하는 이유 Deep learning을 이해하기 위해서 반드시 선형대수 + 행렬미분 + 확률의 탄탄한 기초가 필요하다. Transfor

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (3) 확률기초 확률과 확률변수 (Random Variable) 표본집합 $S$ : 실험의 결과로 발생하는 모든 사건의 집합 확률 $P$ : 집합 $S$의 부분집합(사건)을 실수값에 대응시

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (4) 선형회귀 모델 선형 기저 함수 모델 가장 단순한 형태의 선형모델 $$ y(\textbf{x,w})=w0+w1x1+\cdots+wDxD, \\\textbf{x}=(x1,x2,\cdot

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (5) 선형분류 모델 선형 분류의 목표와 방법들 분류(classification)의 목표 입력벡터 $\textbf{x}$를 $K$개의 가능한 클래스 중에서 하나의 클래스로 할당하는 것 분

대용량 데이터 훈련 대비 Spark, SparkML 실습 (1)룩업 테이블등을 브로드캐스팅하여 셔플링을 막는 방식으로 사용 \- 브로드캐스트 조인에서 사용되는 것과 동일한 테크닉 \- 대부분 룩업 테이블 (혹은 디멘션 테이블 - 10-20MB)을 Executor로

📖 학습주제 > 대용량 데이터 훈련 대비 Spark, SparkML 실습 (2) Dynamic Partition Pruning Filter (Predicate) Pushdown 데이터 소스에서 읽어들일 때 필터링을 적용해 읽는 데이터를 최소화 특정 데이터 소스에만

대용량 데이터 훈련 대비 Spark, SparkML 실습 (3)Skew 파티션으로 인한 성능 문제를 해결하기 위함 \- 한 두개의 오래 걸리는 태스크들로 인한 전체 Job/Stage 종료 지연 \- 이 때 disk spill이 발생한다면 더 느려지게 됨먼저 skew

📖 학습주제 > 대용량 데이터 훈련 대비 Spark, SparkML 실습 (4) Spark ML 소개 Spark ML 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collabo

대용량 데이터 훈련 대비 Spark, SparkML 실습 (5)최적의 하이퍼 파라미터 선택 \- 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요 \- 하나씩 테스트해보는 것 vs. 다수를 동시 테스트하는 것 \- 모델 선택의 중요한 부분은 테스트 방법

0주차 프로젝트 주간 전(2024. 02. 08. ~ 09.) 프로젝트 아이디어 선정 회의 및 아이디어 구체화 행복 지수에 영향을 주는 요인들(https://www.kaggle.com/datasets/willianoliveiragibin/2024-urban-bliss-

코드 리팩토링 dag를 작성하는 방식이 팀원마다 모두 달라 추후에 코드 유지보수, 재사용성, 확장성 관점에서 기술부채를 유발할 가능성 제기, dag 작성 방식의 통일화 plugin, utils를 활용하도록 변경 Seoul_housing Seoul_POP

## Data Cleaning 작업이 생각보다 더 오래걸린다. 기능 자체는 구현이 완료 되었고 소스도 규격도 다른 데이터들을 공통적으로 적용할 수 있도록 코드를 작성하고 모듈화 시켰다. #### filter.py ```python from pydantic import

## Data Cleaning AWS Athena에서 쿼리 작업을 진행하는데 있어 몇몇 정적 데이터가 문제를 일으켰다. 이에 원인 파악에 나섰는데 컬럼명을 지정해주지 않아 생긴 에러로 보인다. 문제를 일으킨 데이터들도 해결해야하기도 하고 임시로 컬럼명을 붙여놓은 다른