시리즈

[데브코스] 데이터 엔지니어링

1.[프로그래머스] 데브코스 데이터 엔지니어링 2기 합격 후기

시간은 끊임없이 흐르지 그에 따라 난 내 발을 구르지..(비와이 - The Time Goes On)아무 것도 안한거 같은데 눈 떠보니 대학교 4학년 2학기. 진짜 발만 동동 굴렀다. 공부를 아예 안한건 아니지만 공부하면서 다른 사람 풀이를 보면 진짜 벽이 느껴지더라.

2023년 10월 3일

2.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 1

학습주제 자료구조 & 알고리즘, 배열, 정렬 & 탐색, 재귀 알고리즘, 알고리즘 복잡도

2023년 10월 16일

3.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 2

학습주제 연결 리스트, 스택

2023년 10월 17일

4.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 3

학습주제 큐, 환형 큐, 우선순위 큐,트리, 이진트리, 이진탐색트리,힙

2023년 10월 18일

5.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 4

학습주제 알고리즘을 적용한 코딩테스트 문제 풀이(해시(Hash), 그리디(Greedy), 정렬(Sort))

2023년 10월 19일

6.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 5

학습주제 알고리즘을 적용한 코딩테스트 문제 풀이(힙(Heap), 동적계획법(Dynamic Programming), 깊이/너비 우선 탐색(DFS/BFS) )

2023년 10월 20일

7.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 6

style.css ![](https://velog.velcdn.com/images/jujaemin/post/6b32d6c1-321d-4f6d-9e59-53a

2023년 10월 23일

8.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 7

📖 학습주제 > HTTP, 웹스크래핑과 웹 크롤링 인터넷과 웹 >인터넷 : 여러 컴퓨터끼리 네트워크를 연결한 것 웹 : 인터넷 상에서 정보를 교환하기 위한 시스템 발전 과정 최초의 컴퓨터 출현, 문서 작업 및 복잡한 계산 등 인간이 하는 일을 위임 두 컴퓨터를

2023년 10월 24일

9.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 8

BeautifulSoup4를 이용한 웹 스크래핑 실습, 동적 웹페이지지난 실습들에서 requests 모듈을 이용해서 HTTP 요청을 보내고, 이 응답을 받아 여러 요소를 보았다. 그러나 res.text를 했을 때, 해당 내용이 아주 긴 텍스트로 와서 분석하기 어려웠던

2023년 10월 25일

10.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 9

Selenium 실습Python을 이용해서 웹 브라우저를 조작할 수 있는 자동화 프레임워크Webdriver : 웹 브라우저를 제어할 수 있는 자동화 프레임워크, 드라이버 객체는 특정 브라우저에 종속됨웹 브라우저와 연동하기 위해서는 Webdriver가 필요하다. 실습에서

2023년 10월 26일

11.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 10

📖 학습주제 > 시각화 시각화 이제까지 데이터 스크래핑을 통해 데이터를 추출하는 것을 실습했다. 그러나 결과들을 보면 텍스트, 리스트 등으로 얻을 수 있었다. 이렇게 얻은 데이터들이 유의미하다고는 아직 말할 수 없다. 좀 더 가공을 거쳐 인사이트를 얻기 편하게 만들

2023년 10월 27일

12.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 11

Django 실습파이썬을 설치한 후 cmd창을 통해 진행한다.기존에 프로젝트 폴더가 존재하지 않았던 경우에는 설정한 프로젝트 이름에 따라 새롭게 폴더가 생성된다.mysite라는 프로젝트를 생성한다.실행한 서버로 가보자polls가 생긴 것을 볼 수 있다.웹 서버가 페이지

2023년 10월 30일

13.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 12

Django 실습뷰(Views)와 템플릿(Templates)

2023년 10월 31일

14.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 13

시리얼라이저시리얼라이저란 아래의 두 작업을 모두 수행할 수 있는 모델이다.모델 인스턴스나 QuerySet과 같은 데이터들을 JSON형식의 파일로 변환하는 작업JSON형식의 파일을 J모델 인스턴스나 QuerySet과 같은 데이터들로 변환하는 작업시리얼라이저를 구현할 새로

2023년 11월 1일

15.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 14

📖 학습주제 > 유저 User 추가하기 settings.py에 django.contrib.auth가 존재해 유저를 추가하거나 로그인하는 등을 할 수 있다. polls/models.py questions라고 지정된 related_name을 통해 auth.User

2023년 11월 2일

16.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 15

📖 학습주제 > RelatedField Testing RelatedField > 모델 사이의 관계를 나타내기 위해 사용되는 클래스 PrimaryKeyRelatedField : id(PrimaryKey)를 표시한다. PrimaryKeyRelatedField(m

2023년 11월 3일

17.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 16 ~ 20 1차 프로젝트

첫번째 프로젝트가 시작되었다. 지금까지 배웠던 것들을 사용해 크롤링 기반 웹데이터로 웹사이트를 만들어야 한다.주말부터 오늘 아침까지 미리 팀원들과 회의를 하면서 주제를 선정하고 역할 분담을 마쳤다. 나는 웹 크롤링 파트를 맡았다.주제로는 채용 사이트 이용한 기술 스택

2023년 11월 6일

18.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 21

📖 학습주제 데이터베이스 SQL 데이터 웨어하우스 클라우드 관계형 데이터베이스 구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지 (비관계형 데이터 x) 엑셀 스프레드시트 형태의 테이블로 데이터를 정의하고 저장 (테이블에는 컬럼(열)과 레코드(행)이 존재)

2023년 11월 13일

19.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 22

SQL다수의 SQL 문을 실행한다면 세미콜론으로 분리가 필요함SQL 주석 \- -- : 인라인 한줄짜리 주석 \- /\* -- \*/: 여러 줄에 걸쳐 사용 가능한 주석테이블 생성CTAS: CREATE TABLE table_name AS SELECT select

2023년 11월 14일

20.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 23

SQL테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산할 수 있음그룹핑을 할 필드를 결정 (하나 이상의 필드가 될 수 있음)GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용)그룹별로 계산할 내용을 결정Aggregate함수를 사용COUNT, S

2023년 11월 15일

21.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 24

데이터 웨어하우스와 SQL 기본에 대해 배우고 이를 바탕으로 데이터 분석에 대해 학습 (4)두 개 혹은 그 이상의 테이블들을 공통 필드를 병합스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용된다.양쪽 테이블에서 매치가 되는 레코드들만 리턴함양쪽 테이

2023년 11월 16일

22.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 25

데이터 웨어하우스와 SQL 기본에 대해 배우고 이를 바탕으로 데이터 분석에 대해 학습 (5)Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는방법 \-> 트랜잭션으로 묶인 SQL중 하나라도 실패하면 실행 전으로 돌아감(ROLLBACK)DDL이나

2023년 11월 17일

23.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 26

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (1) 클라우드 컴퓨팅 클라우드 컴퓨팅 IT 리소스를 인터넷을 통해 온디맨드로 제공하고 사용한 만큼만 비용을 지불하는 방식 물리적 데이터 센터와 서버를 구입, 소유 및 유지 관리하는 대

2023년 11월 20일

24.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 27

2023년 11월 21일

25.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 28

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (3) IAM(Identity and Access Management) AWS 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스 리소스를 사용하도록 인증(로그인) 및 권한 부여(

2023년 11월 22일

26.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 29

가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (4)SpringBoot 구성VPC 구성Elasticbeanstalk 구성콘솔접속RDSFrontCI/CDRoute53intellij를 이용한 프로젝트 생성한다.깃허브에 새 리포지토리를 만든 후 터미널에서 g

2023년 11월 23일

27.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 30

📖 학습주제 > 가장 많이 사용되는 AWS 클라우드에 대해 실습 중심으로 학습 (5) Docker 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는 소프트웨어 플랫폼 소프트웨어를 컨테이너라는 표준화된 유닛으로 패키징하며 이 컨테이너에는 라이브러리, 시스템

2023년 11월 24일

28.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 31

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (1) 데이터 팀의 역할 데이터 조직의 비전 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성 -> 대부분의 회사에서 직접 매출을 올리는 것이 아니라 회사가 본업을 더

2023년 11월 27일

29.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 32

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (2) Redshift 특징 소개 Redshift의 특징 AWS에서 지원하는 데이터 웨어하우스 서비스 2 PB의 데이타까지 처리 가능 최소 160GB로 시작해서 점진적

2023년 11월 28일

30.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 33

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (3) Redshift 권한과 보안 사용자별 테이블 권한 설정 일반적으로 사용자별 테이블별 권한 설정은 하지 않음 (사용자, 테이블이 많아지면 너무 복잡해지고 실수의 가

2023년 11월 29일

31.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 34

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (4) Snowflake 특징 소개 Snowflake 소개 2014년에 클라우드 기반 데이터웨어하우스로 시작 글로벌 클라우드위에서 모두 동작 (AWS, GCP, Azur

2023년 11월 30일

32.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 35

📖 학습주제 > ETL, ELT, Redshift, 데이터 분석/처리용 고급SQL, BI대시보드 (5) 다양한 시각화 툴 소개 시각화 툴 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 함 KPI (Key Performance Indic

2023년 12월 1일

33.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 36 ~ 40 2차 프로젝트

프로젝트 : 데이터 웨어하우스를 이용한 대시보드 구성 Day 36(2023. 12. 04.) 주제 선정 및 역할 분담 주제 : 농산물 가격 데이터를 통한 물가 변동 조회 전체적인 구상 : API(+크롤링) -> S3 -> Redshift -> Superset 기능

2023년 12월 4일

34.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 41

📖 학습주제 > 데이터 파이프라인, Airflow (1) 데이터 파이프라인(ETL) 소개 데이터의 흐름과 데이터 팀의 발전 단계 데이터 웨어하우스의 구성 예 데이터 파이프라인 ETL : Extract, Transform and Load Data Pipeline,

2023년 12월 11일

35.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 42

📖 학습주제 > 데이터 파이프라인, Airflow (2) Airflow 설치 직접 설치하고 운영 클라우드 사용 (프로덕션 환경에서 선호됨) AWS: MWAA (Managed Workflows for Apache Airflow) 사용 구글 클라우드: Cloud Co

2023년 12월 12일

36.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 43

📖 학습주제 > 데이터 파이프라인, Airflow (3) Hello World 예제 프로그램 살펴보기 PythonOperator 이용 PythonOperator python_callable : 태크스가 실행 될 때 불러올 파이썬 함수 params : 함수의

2023년 12월 13일

37.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 44

데이터 파이프라인, Airflow (4)위도/경도를 기반으로 그 지역의 기후 정보를 알려주는 서비스무료 계정으로 api key를 받아서 이를 호출시에 사용https://openweathermap.org/priceAPI Key를 open_weather_api_k

2023년 12월 14일

38.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 45

데이터 파이프라인, Airflow (5)

2023년 12월 15일

39.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 46

📖 학습주제 개발환경 구축을 위한 Docker와 K8S 실습 (1) Airflow 운영상의 어려움 데이터 품질이나 데이터 리니지 이슈 이외에도 다양한 이슈들이 발생 라이브러리 충돌 라이브러리/모듈의 충돌 이슈가 발생하기 시작함 DAG에 따라 실행에 필요한 라이브러

2023년 12월 18일

40.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 47

📖 학습주제 개발환경 구축을 위한 Docker와 K8S 실습 (2) 웹 서비스를 Docker로 실행해보기 웹서비스를 Docker로 구동해보는 전체 과정 hangman_web이라는 repo의 main에 코드가 머지될 때마다 다음을 수행 테스트 수행 Docker Im

2023년 12월 19일

41.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 48

개발환경 구축을 위한 Docker와 K8S 실습 (3)docker build --platform=linux/amd64 -t \~\~~ : 이미지 빌드docker images or docker image ls : 현재 로컬에 저장된 이미지 목록docker rmi or o

2023년 12월 20일

42.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 49

개발환경 구축을 위한 Docker와 K8S 실습 (4)다수의 Container로 소프트웨어가 구성되는 경우 사용할 수 있는 툴 + 환경설정파일 \- docker-compose.yml로 설정 \- 여기서 다양한 테스트등도 수행가능 \- 다양한 버전을 만드는 것도 일

2023년 12월 21일

43.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 50

개발환경 구축을 위한 Docker와 K8S 실습 (5)Docker Image \- DockerfileDocker ContainerDocker Hub (hub.docker.com)Docker Compose \- 다수의 Docker Container들을 관리 \- doc

2023년 12월 22일

44.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 51

📖 학습주제 > Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (1)

2024년 1월 1일

45.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 52

📖 학습주제 > Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (2) 구글 시트 연동하기 구글 시트 => Redshift table 구글 시트를 테이블로 복사 구현 절차 구글 클라우드에 로그인해 시트 API 활성화하고 구글 서비스 어카운트

2024년 1월 2일

46.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 53

Airflow의 다양한 고급 기능과 CI/CD 환경 설정에 대해 학습 (3)주기적 실행 : schedule로 지정다른 Dag에 의해 트리거 \- Explicit Trigger: Dag A가 분명하게 Dag B를 트리거 (TriggerDagRunOperator) \-

2024년 1월 3일

47.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 54

📖 학습주제 > DBT 소개, 데이터 디스커버리, 툴 학습 (1) 프로덕션 사용을 위한 Airflow 환경설정 알아야 할 것 airflow.cfg is in /var/lib/airflow/airflow.cfg Any changes here will be refle

2024년 1월 4일

48.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 55

DBT 소개, 데이터 디스커버리, 툴 학습 (2)많은 dimension 테이블들은 크기가 작고 많이 변하지 않는데, Seeds는 이를 파일 형태로 데이터웨어하우스로 로드하는 방법 \- Seeds는 작은 파일 데이터를 지칭 (보통 csv 파일)dbt seed를 실행해서

2024년 1월 5일

49.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 56 ~ 60 3차 프로젝트

프로젝트 : End-to-end 데이터 파이프라인 구성하기 Day 56(2024. 01. 08.) 주제선정 : 기상상태에 따른 따릉이 대여량 변화 역할분담 : 데이터수집 관련해서 맡기로 했다. 열린 데이터 광장에서 사용할 데이터의 api를 받아 시작하고 나서 여러

2024년 1월 8일

50.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 61

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (1) 빅데이터의 정의와 예 빅데이터의 정의 1. 서버 한대로 처리할 수 없는 규모의 데이터 2012년 4월 아마존 클라우드 컨퍼런스에서 아마존의 data scientist인 존 라우저(John Rau

2024년 1월 15일

51.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 62

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (2) Spark 데이터 처리 Spark 데이터 시스템 아키텍처 데이터 병렬처리가 가능하기 위해서는 데이터가 먼저 분산되어야함 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB)

2024년 1월 16일

52.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 63

빅데이터 처리 시스템, Hadoop, Spark (3)데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술구조화된 데이터를 다루는한 SQL은 데이터 규모와 상관없이 쓰임모든 대용량 데이터 웨어하우스는 SQL 기반 \- Redshift, Snowflake, BigQ

2024년 1월 17일

53.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 64

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (4) Spark 파일 포맷 파일 포맷 데이터는 디스크에 파일로 저장되고 일에 맞게 최적화 필요함 Unstructured Text Semi-structured JSON XML CSV 이상 HUMA

2024년 1월 18일

54.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 65

📖 학습주제 > 빅데이터 처리 시스템, Hadoop, Spark (5) AWS Spark 클러스터 론치 AWS에서 Spark을 실행하려면 -> EMR (Elastic MapReduce) 위에서 실행하는 것이 일반적 EMR AWS의 Hadoop 서비스 (On-dem

2024년 1월 19일

55.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 66

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (1) 구글이 데이터 분야에 끼친 영향 구글 검색 엔진의 등장 1995년 스탠포드 대학에서 박사과정으로 있던 래리 페이지와 세르게이 브린이 1998년에 발표한 웹 검색 서비스 그 전까지의

2024년 1월 22일

56.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 67

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (2) Udemy 데이터팀 빌딩 여정 2014년 8월 데이터 엔지니어링팀 처음 빌딩 ▹ 데이터 웨어하우스 도입 (Redshift) ▹ ETL 프로세스 개발 처음에는 crontab으로 관리하

2024년 1월 23일

57.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 68

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (3) Kafka 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Scalabilit

2024년 1월 24일

58.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 69

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (4) Client Tool Kafka CLI Tools 접근 방법 docker ps를 통해 Broker의 Container ID 혹은 Container 이름 파악 해당 컨테이너로 로그인

2024년 1월 25일

59.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 70

📖 학습주제 > Kafka와 Spark Streaming 기반 스트리밍 처리 (5) Spark Streaming Spark의 등장 버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작 나중에 Databricks라는 스타트업 창업 하둡의 뒤를 잇

2024년 1월 26일

60.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 71

머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (1)주요 단계는 다음과 같다.큰 그림을 본다. (look at the big picture)데이터를 구한다. (get the data)데이터로부터 통찰을 얻기 위해 탐색하고 시각화한다. (discover a

2024년 1월 29일

61.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 72

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (2) 머신러닝을 위한 기초 선형대수 선형대수를 알아야 하는 이유 Deep learning을 이해하기 위해서 반드시 선형대수 + 행렬미분 + 확률의 탄탄한 기초가 필요하다. Transfor

2024년 1월 30일

62.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 73

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (3) 확률기초 확률과 확률변수 (Random Variable) 표본집합 $S$ : 실험의 결과로 발생하는 모든 사건의 집합 확률 $P$ : 집합 $S$의 부분집합(사건)을 실수값에 대응시

2024년 1월 31일

63.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 74

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (4) 선형회귀 모델 선형 기저 함수 모델 가장 단순한 형태의 선형모델 $$ y(\textbf{x,w})=w0+w1x1+\cdots+wDxD, \\\textbf{x}=(x1,x2,\cdot

2024년 2월 1일

64.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 75

📖 학습주제 > 머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (5) 선형분류 모델 선형 분류의 목표와 방법들 분류(classification)의 목표 입력벡터 $\textbf{x}$를 $K$개의 가능한 클래스 중에서 하나의 클래스로 할당하는 것 분

2024년 2월 2일

65.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 76

대용량 데이터 훈련 대비 Spark, SparkML 실습 (1)룩업 테이블등을 브로드캐스팅하여 셔플링을 막는 방식으로 사용 \- 브로드캐스트 조인에서 사용되는 것과 동일한 테크닉 \- 대부분 룩업 테이블 (혹은 디멘션 테이블 - 10-20MB)을 Executor로

2024년 2월 5일

66.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 77

📖 학습주제 > 대용량 데이터 훈련 대비 Spark, SparkML 실습 (2) Dynamic Partition Pruning Filter (Predicate) Pushdown 데이터 소스에서 읽어들일 때 필터링을 적용해 읽는 데이터를 최소화 특정 데이터 소스에만

2024년 2월 6일

67.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 78

대용량 데이터 훈련 대비 Spark, SparkML 실습 (3)Skew 파티션으로 인한 성능 문제를 해결하기 위함 \- 한 두개의 오래 걸리는 태스크들로 인한 전체 Job/Stage 종료 지연 \- 이 때 disk spill이 발생한다면 더 느려지게 됨먼저 skew

2024년 2월 7일

68.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 79

📖 학습주제 > 대용량 데이터 훈련 대비 Spark, SparkML 실습 (4) Spark ML 소개 Spark ML 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collabo

2024년 2월 8일

69.[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 80

대용량 데이터 훈련 대비 Spark, SparkML 실습 (5)최적의 하이퍼 파라미터 선택 \- 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요 \- 하나씩 테스트해보는 것 vs. 다수를 동시 테스트하는 것 \- 모델 선택의 중요한 부분은 테스트 방법

2024년 2월 9일

70.[프로그래머스] 데브코스 데이터엔지니어링 최종 프로젝트 1주차

0주차 프로젝트 주간 전(2024. 02. 08. ~ 09.) 프로젝트 아이디어 선정 회의 및 아이디어 구체화 행복 지수에 영향을 주는 요인들(https://www.kaggle.com/datasets/willianoliveiragibin/2024-urban-bliss-

2024년 2월 12일

71.[프로그래머스] 데브코스 데이터엔지니어링 최종 프로젝트 2주차

코드 리팩토링 dag를 작성하는 방식이 팀원마다 모두 달라 추후에 코드 유지보수, 재사용성, 확장성 관점에서 기술부채를 유발할 가능성 제기, dag 작성 방식의 통일화 plugin, utils를 활용하도록 변경 Seoul_housing Seoul_POP

2024년 2월 19일

72.[프로그래머스] 데브코스 데이터엔지니어링 최종 프로젝트 3주차

## Data Cleaning 작업이 생각보다 더 오래걸린다. 기능 자체는 구현이 완료 되었고 소스도 규격도 다른 데이터들을 공통적으로 적용할 수 있도록 코드를 작성하고 모듈화 시켰다. #### filter.py ```python from pydantic import

2024년 2월 26일

73.[프로그래머스] 데브코스 데이터엔지니어링 최종 프로젝트 4주차

## Data Cleaning AWS Athena에서 쿼리 작업을 진행하는데 있어 몇몇 정적 데이터가 문제를 일으켰다. 이에 원인 파악에 나섰는데 컬럼명을 지정해주지 않아 생긴 에러로 보인다. 문제를 일으킨 데이터들도 해결해야하기도 하고 임시로 컬럼명을 붙여놓은 다른

2024년 3월 4일