# Data Engineer

32개의 포스트

Spark

2022년 11월 7일
·
0개의 댓글
·
post-thumbnail

MySQL 명령어 모음

2022년 9월 30일
·
0개의 댓글
·
post-thumbnail

[DE] 데이터 엔지니어 무료 강의

Djangohttps://inf.run/8txi인프란 Django 초보 가이드 - 실습을 통해 알아보는 장고 입문ELKhttps://inf.run/iUqD인프런 ELK 스택 (ElasticSearch, Logstash, Kibana) 으로 데이터 분석

2022년 9월 14일
·
0개의 댓글
·
post-thumbnail

새로운 데이터 아키텍처의 시대 1편 - Modern Data Architecture

현시대에서 데이터의 중요성은 누구나 인지하고 있는 개념이고 생각합니다. 데이터의 중요성과 더불어 데이터가 다양한 곳에 활용되며, 수집이 되는 데이터의 종류도 많아졌습니다. 이 글에서는 데이터양과 활용성에 증가에 따라 과거부터 지금까지 데이터를 처리하기 위한...

2022년 8월 5일
·
0개의 댓글
·
post-thumbnail

데이터 엔지니어 로드맵

데이터 엔지니어 ❓데이터 엔지니어는 한마디로 기업 내 데이터 기초 공사를 하는거라고 할 수 있다. 어떻게 데이터를 수집할 지, 어떤 방식으로 데이터를 쌓을지, 어떻게 관리할지를 고민하여 기업이나 회사 내 데이터 흐름을 생성한다.공사를 잘 했어도 이후에 누수

2022년 8월 3일
·
0개의 댓글
·
post-thumbnail

해외 주식 분석 프로젝트-1

안녕하세요.프로젝트를 진행하기에 앞서 간략한 자기소개부터 하겠습니다.저는 2020년 초부터 미국 배당주/성장주에 장기투자중인 서학개미입니다.약 2년의 투자 경험을 바탕으로 보유중인 주식에 대한 정보를한눈에 쉽게 파악 및 분석해보고 싶어서본 프로젝트를 기획하게 되었습니다

2022년 7월 5일
·
0개의 댓글
·
post-thumbnail

크롤링부터 데이터 플랫폼까지 1.서비스 아키텍쳐

이 글은 Analytics 및 서비스에 필요한 데이터 아키텍쳐와 파이프라인 개발을 위한 A to Z의 첫 번째 글이다.

2022년 5월 23일
·
0개의 댓글
·

Databricks 시작하기

입사할 당시 Back-end로 들어왔지만, CTO께서 제가 데이터 엔지니어에도 관심이 많다는 것을 알고, Data Processing팀으로 옮기게 되었고, DP에서 하는 기본적인 업무 외에 DP업무 확장 개념으로 databricks를 활용해 data lake를 구축을

2022년 5월 10일
·
0개의 댓글
·

[Elasticsearch] 자주 사용하는 명령어

일반적인 상황에서는 empty list 반환pending 되어 있는 작업이 있는 경우 그 리스트 반환GC가 비정상적이거나 CPU가 높거나 검색이 밀리는 등 대부분의 문제의 원인을 유추할 수 있음\[Task Management API | Elasticsearch Refe

2022년 3월 21일
·
0개의 댓글
·

[Logstash] Elasticsearch 와 RDBMS 연동

Kibana - Stack Management - Logstash Pipelineshttps://s3-us-west-2.amazonaws.com/secure.notion-static.com/b598fa56-2d09-4b65-b08c-14b77f3921a0/Un

2022년 3월 21일
·
0개의 댓글
·

[Elasticsearch] Node Start and Stop

[Elasticsearch] Node Start and Stop Elasticsearch Node를 재시작 할 때 아래와 같은 방법으로 작업을 진행하여야 샤드들이 재배치 되지 않고 빠르게 재시작 할 수 있음 Shard Allocation Stop 노드를 중단했을

2022년 3월 21일
·
0개의 댓글
·

4-4. Importing JSON Data and Working with APIs

가짜연구소 dsf-2기로 활동중이며, 데이터 엔지니어 4코스: Importing JSON Data and Working with APIs를 수강하고 그에 관련 내용을 적어보았다. >🌱 출처 : Datacamp data enigneering track 모르는 부분이

2022년 3월 5일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 16일차

스파크 애플리케이션은 스파크 클러스터와 사용자 코드 두가지 조합으로 구성된다. 애플리케이션 개발시 템플릿을 이용하여 기본적인 틀을 잡을 수 있다. 스파크에서 지원하는 언어에 따라 해당 절에서는 스칼라, 파이썬, 자바로 어플리케이션을 작성하는 방법을 소개하고 있다.

2022년 2월 7일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 15일차

스파크 드라이버 : 스파크 애플리케이션의 실행을 제어하고 스파크 클러스터의 모든 상태 정보를 유지한다. 물리적 컴퓨팅 자원 확보와 익스큐터 실행을 위한 클러스터 매니저와 통신할 수 있어야 한다.

2022년 2월 4일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 13일차

RDD에는 key-value형태의 데이터를 다룰 수 있는 다양한 메서드가 존재한다. 이러한 메서드들은 <연산명>ByKey 형태의 이름을 가지며 PairRDD타입만 사용할 수 있다.

2022년 2월 2일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 12일차

스파크에는 두 종류의 저수준 API가 있다. 분산 데이터 처리를 위한 RDD와 브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API가 있다. 저수준 API를 사용하는 상황은 다음과 같다.

2022년 1월 31일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 11일차

Dataset은 구조적 API의 기본 데이터 타입이다. 앞서 살펴본 DataFrame은 Row타입의 Dataset이다. Dataset은 JVM을 사용하는 언어인 스칼라와 자바에서만 사용할 수 있다. 그렇다면 Dataset을 사용해야하는 이유는 무엇일까?

2022년 1월 28일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 10일차

스파크 SQL은 하이브 메타스토어를 사용하기 때문에 하이브와 잘 연동된다. 스파크 SQL은 하이브 메타스토어에 접속한 뒤 조회할 파일 수를 최소화하기 위해 메타데이터를 참조한다.

2022년 1월 25일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 7일차

집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다.

2022년 1월 14일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 6일차

스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다.

2022년 1월 13일
·
0개의 댓글
·