# DE

[DE프젝]두 번째 회고
🥹 엘라스틱에서 MySQL로 1월 한 달을 es 공부와 구축에 쏟았다. 그러던 중 2월 초, 백엔드분으로부터 es로만 구축하면 서버가 뻗을 것이다 라는 얘기를 들었다. 그래서 처음 DB였던 MySQL로 회귀하였다..... 처음엔 간단하게 MySQL이 RDB니까 더

[DE프젝]첫 번째 회고
✒ 프로젝트 개요 12월부터 참여하게 된 팀 프로젝트가 있어 그 과정을 기록하려 한다. 내가 참여한 프로젝트는 실제로 서비스로 출시를 목표로 하는 팀이고, 각 분야의 미들 이상급 분들과 주니어가 섞인 성장형+실무형 프로젝트다. 프로젝트는 유튜브 데이터를 AI 학습

[Programmers]실리콘밸리에서 날아온 DE 스타터 키트5️⃣주차
우선, 6주차 강의가 올라간지 한참 지나서 5주차 리뷰를 쓰는 자신을 반성하며 글을 시작합니다...🥲4주차 복습질문 리뷰대용량 데이터 처리 할 때 airflow worker 노드 안에서 spark 처리? 아니면 airflow에서 emr 구동해서 emr에서 spark

[Programmers]실리콘밸리에서 날아온 DE 스타터 키트3️⃣주차
2주차 복습사용자별 처음/마지막 채널 쿼리 : Subquery에 대한 공부 보충!Gross Revenue랑 Net Revenue : Net Revenue는 Refunded가 False인 것들만 더해줘야 함. 데이터 파이프라인과 ETL비구조화된 데이터 처리하기raw da

[Programmers]실리콘밸리에서 날아온 DE 스타터 키트1️⃣주차
데이터팀의 역할👩💻첫 번째 주이니만큼 워밍업 느낌으로 데이터팀의 구성과 비전에 대한 설명이 주를 이뤘다.work process는 최근 Waterfall에서 Agile로 변화했다. 그러니 하나 끝났다고 끝이 아니라 다시 처음으로 돌아가서 점검하고 계획하고 개발하고

[Programmers]실리콘밸리에서 날아온 DE 스타터 키트0️⃣주차
국비교육이 거의 끝나가는 지금, 어쩌다 추가적인 DE 강의를(그것도 과제도 존재하는!) 듣게되었는가?국비교육을 들어보신 분들은 아시겠지만, 대부분의 부트캠프나 국비교육은 컴공을 위한 백엔드(BE), 비전공자를 위한 프론트엔드(FE)로 나뉘고 데이터 분야에선 전공자는 D

[CP1]PM 서비스 기획(9)-마무리-
프로젝트 개요 팀 보고서 프로젝트 목적 퍼스널 모빌리티(이하 PM)의 수요를 예측하고 이를 실시간 지도에 반영하여 공급의사결정을 내리는 것에 도움을 준다. 헬멧 인증 및 주차 인증 마일리지 적립 서비스를 도입하여 안전하고 바람직한 PM 사용자 문화를 만든다. 사고
Apache Spark Streaming 개요
데이터 스트림은 무한한 테이블이다.SQL 엔진 위에서 만들어진 분산 스트림 처리 프로세싱데이터 스트림을 처리할 때 사용함시간대 별로 데이터를 합쳐(aggregate) 분석할 수 있음Kafka, HDFS 등과 연결 가능체크포인트를 만들어서 부분적인 결함이 발생해도 다시
Apache Spark 머신러닝을 위한 MLlib 기본 구성
머신러닝 파이프라인 개발을 쉽고 확장성 있게 적용하기 위해 만들어진 Spark 컴포넌트.
Apache Spark Dataframe API
Spark에서는 Dataframe 사용이 권장되며, Spark RDD에 스키마를 입힌 것이 Dataframe이라고 알면 된다. 즉 Spark 기본인 RDD에서 출발하여 더 발전된 형태로 활용할 수 있는 것이 Spark Dataframe이다.Spark Core -> RD

[DE] ETL과 ELT 비교, 5가지 주요 차이점
ETL은 데이터의 추출(Extract), 변환(Transform), 로드(Load) 프로세스를 가리킵니다.ELT는 데이터의 추출(Extract), 로드(Load), 변환(Transform) 프로세스를 가리킵니다.ETL에서 데이터는 데이터 소스에서 스테이징을 거쳐 데이터