# DataEngineering

Data Engineering - Observability에 대하여
프로그램의 실행 과정을 상세히 남기는 것호출하는 메소드의 시작 시간과 끝 시간을 남겨서 걸린 시간을 계산할 수 있게 하는 것.

데이터 엔지니어링 이란 ?
데이터 엔지니어링의 인기가 높아졌지만 데이터 엔지니어링이 실제로 무엇을 의미하는지, 데이터 엔지니어가 무엇을 하는지에 관해서는 여전히 많은 사람이 혼란스러워 한다.데이터 엔지니어링이라는 용어에는 수많은 정의가 존재한다. 다음은 데이터엔지니어링에 관해 이 분야의 일부 전
클라우드 서비스 종류 비교:IaaS, PaaS, SaaS, EaaS
많은 서비스를 제공할수록 편리함은 증가하지만 자유도가 줄어든다. Microsoft Azure, Google CloudPaaS 서비스를 사용하면 엔지니어는 개별 머신을 관리하고 분산 시스템 전체에 프레임워크를 배포하는 운영 세부 사항을 무시할 수 있음. ex) 아마존 S

DataWarehouse VS DataLake
분석용 데이터마트에는 원천(Source)가 존재한다.Source에서 출발한 데이터를 포맷에 맞게 가공을 하고 쌓느냐 혹은 쌓은 뒤 필요시 가공하느냐에 따라 다르다.데이터 웨어하우스는 데이터를 쌓기 전에 포맷에 맞게 변형하여 저장하는 방식을 의미한다.포맷에 맞춰야 하므로

Play data Data engineering track
3월 27일부터 플레이데이터에서 진행하는 data engineering부트캠프를 수강하기 시작했습니다.아직 파이썬 이번주는 파이썬 기초문법부터 배우고 있습니다.오늘부터 1일 1알고리즘 문제 올릴려고 합니다.
데이터 엔지니어링?
넵 이런 고민? 생각들을 하고 있습니다.backend 분들이 만들어두고 사용하시는 데이터베이스를 데이터레이크로 생각하고 데이터팀을 위한 데이터 웨어하우스라고 할 수 있는 DB를 만드는 작업을 진행하고 있습니다네이버 클라우드Ubuntumysqlairflow를 통한 신DB

로그데이터 설계 과정(feat.GA4)
원문) https://brunch.co.kr/@seongminyoo/134참고자료)https://www.minwookim.kr/data-informed-product-building/https://academy.ab180.co/courses/
인터넷과 웹
컴퓨터를 연결하여 TCP/IP라는 통신 프로토콜을 이용해 정보를 주고받는 광역 컴퓨터 네트워크다 단, 인터넷 서비스를 이용하려면 직접 연결된 ISP가 제공하는 인터넷 서비스 가입이 필요하며 사용자는 ISP의 호스트 컴퓨터에 접속하여 인터넷 서비스를 사용할 수 있게 된

kafdrop 사용하기
혹시 kafka 컨테이너 3개를 동시에 띄우려고 하는데, 자꾸 컨테이너가 죽는다면?로컬 환경의 메모리 부족이 원인 -> 가상 머신(docker)의 기본 메모리 값을 증설해 문제를 해결해주자 docker exec -it 03-kafka_kafka1_1 kafka-topi
[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (3)
시계열 데이터 축적하기빅데이터 분석은 데이터를 구조화하는 것 부터 시작함압도적으로 많은 부분을 차지하는 것이 팩트 테이블팩트 테이블 작성의 두 가지 방법추가(append): 새로 도착한 데이터만을 증분으로 추가치환(replace): 과거의 데이터를 포함하여 테이블 전체

[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (2)
Hive에 의한 구조화 데이터의 생성과 Presto에 의한 대화식 쿼리쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름(Hive와 Presto 결합)분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장다수의 텍스트 파일을 읽어 들여 가공하는 부

[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (1)
SQL로 데이터를 집계하는 경우, 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마(schema)로 정함스키마가 명확하게 정의된 데이터를 ‘구조화된 데이터(structured data)’라고 함기존의 데이터 웨어하우스에서는 데이터는 항상 구조화된 데이터로 축
[DB] 빅데이터를 지탱하는 기술 - 2. 빅데이터의 탐색
크로스 집계의 개념행과 열이 교차하는 부분에 숫자 데이터가 들어간 테이블사람이 다루기 쉽지만, 데이터베이스는 다루기 어려움새로운 행은 늘리기 쉽지만, 열은 늘리기 어려움행 방향으로만 증가하고, 열 방향으로는 증가하지 않는 테이블트랜잭션 테이블에서 크로스 테이블로 변환하
[DB] 빅데이터를 지탱하는 기술 - 1. 빅데이터의 정착
💡 빅데이터의 주요 역사에 대해서 설명한다2011년까지 → Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전2012년까지 → 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급2013년부터 → 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확충웹 서버
Introduction to Bash Scripting
bash and sh are two different shells of the Unix operating system. bash is sh, but with more features and better syntax. Bash is “Bourne Again SHell”,
Data Processing in Shell
refs: https://kldp.org/node/137609\- : 축약\-- : 서술형supported by sql2csv : firebird, microsoft sql server, mysql, postgresqlnot MongoDB$ : shell va