# DataEngineering

12개의 포스트

[DataEngineering] DataMining(K-means clustering)

k-means clustering

2022년 6월 16일
·
0개의 댓글
·

[DataEngineering] Spark

Spark

2022년 6월 16일
·
0개의 댓글
·

[DataEngineering] YARN(하둡2)

YARN(하둡2)

2022년 4월 27일
·
0개의 댓글
·

[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (3)

시계열 데이터 축적하기빅데이터 분석은 데이터를 구조화하는 것 부터 시작함압도적으로 많은 부분을 차지하는 것이 팩트 테이블팩트 테이블 작성의 두 가지 방법추가(append): 새로 도착한 데이터만을 증분으로 추가치환(replace): 과거의 데이터를 포함하여 테이블 전체

2022년 4월 21일
·
0개의 댓글
·
post-thumbnail

[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (2)

Hive에 의한 구조화 데이터의 생성과 Presto에 의한 대화식 쿼리쿼리 엔진을 사용하여 데이터 마트를 만들기까지의 흐름(Hive와 Presto 결합)분산 스토리지에 저장된 데이터를 구조화하고 열 지향 스토리지 형식으로 저장다수의 텍스트 파일을 읽어 들여 가공하는 부

2022년 4월 21일
·
0개의 댓글
·
post-thumbnail

[DB] 빅데이터를 지탱하는 기술 - 3. 빅데이터의 분산처리 (1)

SQL로 데이터를 집계하는 경우, 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마(schema)로 정함스키마가 명확하게 정의된 데이터를 ‘구조화된 데이터(structured data)’라고 함기존의 데이터 웨어하우스에서는 데이터는 항상 구조화된 데이터로 축

2022년 4월 21일
·
0개의 댓글
·

[DB] 빅데이터를 지탱하는 기술 - 2. 빅데이터의 탐색

크로스 집계의 개념행과 열이 교차하는 부분에 숫자 데이터가 들어간 테이블사람이 다루기 쉽지만, 데이터베이스는 다루기 어려움새로운 행은 늘리기 쉽지만, 열은 늘리기 어려움행 방향으로만 증가하고, 열 방향으로는 증가하지 않는 테이블트랜잭션 테이블에서 크로스 테이블로 변환하

2022년 4월 11일
·
0개의 댓글
·

[DB] 빅데이터를 지탱하는 기술 - 1. 빅데이터의 정착

💡 빅데이터의 주요 역사에 대해서 설명한다2011년까지 → Hadoop이나 NoSQL 데이터베이스 등 기반 기술의 발전2012년까지 → 클라우드 방식의 데이터 웨어하우스나 BI 도구의 보급2013년부터 → 스트림 처리나 애드 혹(AdHoc) 분석 환경의 확충웹 서버

2022년 4월 11일
·
0개의 댓글
·
post-thumbnail

당신이 airflow를 사용해야 하는 이유

당신이 에어플로우를 써야하는 이유

2022년 4월 2일
·
0개의 댓글
·

Introduction to Bash Scripting

bash and sh are two different shells of the Unix operating system. bash is sh, but with more features and better syntax. Bash is “Bourne Again SHell”,

2022년 3월 29일
·
0개의 댓글
·

Data Processing in Shell

refs: https://kldp.org/node/137609\- : 축약\-- : 서술형supported by sql2csv : firebird, microsoft sql server, mysql, postgresqlnot MongoDB$ : shell va

2022년 3월 29일
·
0개의 댓글
·

PySpark - Kafka Streaming(2)

스트리밍 시도 2편

2022년 2월 23일
·
0개의 댓글
·