profile
엉덩이 무거운 개발자가 되기 위해서 몸무게를 찌웠다...

Data Lake VS Data Warehouse

이번 포스팅은 Data Lake와 Warehouse의 차이점을 알아보고자 합니다.그러기에 앞서 일단 Data Lake와 Data Warehouse의 정의를 먼저 알아볼 필요가 있습니다.데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처

2022년 10월 14일
·
0개의 댓글
·
post-thumbnail

컴퓨터 네트워크의 계층별 역할 간편 요약

네트워크 구성요소를 7새의 계층으로 역할을 나눈 표준 모델각 계층별 역할을 통해 통신 규걱을 만족하위 계층은 하드웨어, 상위 계층은 소프트웨어로 구현OSI 7계층이 나오기전 널리 사용되던 사실상 표준 역할각 계층별 역할에 따라 역하리 나눠짐통신 자료를 최종적으로 전달하

2022년 7월 4일
·
0개의 댓글
·
post-thumbnail

Amazon EMR의 기능을 알아보자

Amazon EMR을 사용하면 빅 데이터 환경 및 애플리케이션을 간단하게 구축하고 운영할 수 있습니다. 관련 EMR 기능을 통해 클러스터 및 협업 개발을 위한 EMR Studio를 쉽게 프로비저닝하고 관리형으로 확장하고 재구성할 수 있습니다.몇 분 내에 EMR 클러스터

2022년 2월 9일
·
0개의 댓글
·
post-thumbnail

[Apache Spark] 아파치 스파크의 메모리 관리에 대해서

Spark를 사용하다보면 메모리 관련해서 문제가 발생되는 경우가 많습니다. 최근 연구하는데 있어서 Apach Spark의 Structured Streaming(https://spark.apache.org/docs/latest/structured-streamin

2022년 1월 24일
·
0개의 댓글
·

아파치 스파크(Apache Spark)의 기능 둘러보기

스파크의 라이브러리는 그래프 분석, 머신러닝 그리고 스트리밍 등 다양한 작업을 지원하며, 컴퓨팅 및 스토리지 시스템과의 통합을 돕는 역할을 합니다. 이번 포스팅을 통해 아직 다루지 않은 API와 주요 라이브러리 그리고 스파크가 제공하는 다양한 기능을 소개합니다.spar

2021년 12월 31일
·
0개의 댓글
·
post-thumbnail

아파치 스파크(Apache Spark)의 기본 배경지식

이번에는 아파치 스파크의 DataFrame, SQL을 사용해 클러스터, 스파크 애플리케이션 그리고 구조적 API를 살펴봅시다. 보통 컴퓨터로는 대규모 정보를 연산할 만한 자원이나 성능을 가지지 못합니다. 연산을 할 수 있다고 해도 완료하는 데 너무 많은 시간이 걸릴 수

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

아파치 스파크(Apache Spark)란

 아파치 스파크는 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합입니다. 스파크는 가장 활발하게 개발되고 있는 병렬 처리 오픈소스 엔진이며 빅데이터에 관심 있는 여러 개발자와 데이터 사이언티스트에게 표준 도구가 되어가고 있습니다. 스파크

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

컴퓨터 구조(Computer Architecture)의 컴퓨터 소프트웨어 [2]

소프트웨어는 명령(command)의 집합으로 구성된 컴퓨터 프로그램 및 그와 관련된 문서를 총칭하는 개념입니다. 즉, 컴퓨터 시스템의 구성 요소 중에서 하드웨어를 제외한 무형의 부분을 가리킵니다. 소프트웨어는 데디터의 이동 방향와 데이터 처리의 종류를 지정하며, 또한

2021년 9월 24일
·
0개의 댓글
·
post-thumbnail

컴퓨터 구조(Computer Architecture)의 컴퓨터 하드웨어 [1]

컴퓨터 하드웨어는 컴퓨터의 기능을 수행하기 위해 전기적 신호로 구성된 정보를 이동하거나 처리하는 물리적인 실체를 의미하며, 컴퓨터의 정보 처리 능력을 결정합니다. 이런 컴퓨터 하드웨어를 구성하는 중요 요소는 기능에 따라 중앙처리장치, 기억장치, 주변장치로 구분된다.중앙

2021년 9월 23일
·
0개의 댓글
·
post-thumbnail

아파치 카프카 스트림즈 API(Streams API)

이번장에서는 카프카 스트림즈 API(Streams API)에 대해서 알아보겠습니다. ​카프카는 대규모 메시지를 저장하고 빠르게 처리하기 위해 만들어진 플랫폼입니다. 처음에는 메시지를 다른 프로세스나 애플리케이션에 전달하기 위해 사용되었지만, 카프카의 강력한 성능으로 인

2021년 9월 16일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 성능 최적화 (Latency 편) [3]

이번에는 4개의 성능 목표 중 첫번째로 Latency에 대해서 어떤 파라미터를 튜닝하는지 알아보겠습니다. 프로듀서와 컨슈머의 option 중 어떤 option이 Throughput에 영향을 주는지 알아보며 어떻게 이 옵션의 파라미터가 영향을 주며, 어떻게 설정해야하는지

2021년 9월 9일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 성능 최적화 (Throughput 편) [2]

이번에는 4개의 성능 목표 중 첫번째로 Throughput에 대해서 어떤 파라미터를 튜닝하는지 알아보겠습니다. 프로듀서와 컨슈머의 option 중 어떤 option이 Throughput에 영향을 주는지 알아보며 어떻게 이 옵션의 파라미터가 영향을 주며, 어떻게 설정해야

2021년 9월 9일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 성능 최적화 [1]

이번 포스팅은 아파치 카프카의 성능을 최적화 할 수 있는 파라미터 tunning 방법을 알아봅시다.4개의 성능 목표를 최적화하기 위해 변경해야 하는 Kafka 구성 매개변수가 있습니다. 사실 Kafka 디자인 자체는 사용자에게 구성 유연성을 제공하며 Kafka 배포가

2021년 9월 9일
·
0개의 댓글
·
post-thumbnail

Amazon MSK(Managed Streaming for Apache Kafka) 란?

이번 포스팅을 통해서 Amazon에서 Kafka Cluster및 Zookeeper 제공하는 Amazon MSK에 대해 알아 보겠습니다.Amazon MSK (Managed Streaming for Apache Kafka) 는 Apache Kafka를 사용하여 스트리밍 데

2021년 9월 7일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 컨슈머(Consumer) 커밋(commit)과 offset [12]

이번 포스팅을 통해서 컨슈머의 커밋과 오프셋에 대해서 알아보도록 하겠습니다.카프카가 다른 메시지 큐 솔류션과 차별화되는 특징은 하나의 토픽에 대해 여러 용도로 사용할 수 있다는 점입니다. 일반적인 큐 솔로션은 특정 컨슈머가 메시지를 가져가면 큐에서 메시지가 삭제되어 다

2021년 9월 7일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 컨슈머 그룹(Consumer group) [11]

이번 포스팅을 통해서 컨슈머 그룹에 관해서 알아보겠습니다.일반적으로 컨슈머는 카프카 토픽에서 메시지를 읽어오는 역할을 합니다. 컨슈머 그룹은 하나의 토픽에서 여러 컨슈머 그룹이 동시에 접속해 메시지를 가져올 수 있습니다. 이것은 기존의 다른 메시징 큐 솔루션에서 컨슈머

2021년 9월 7일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 컨슈머(Consumer) 파티션(partition)과 메시지 순서[10]

이번 포스팅을 통해서 컨슈머(Consumer)의 파티션과 메시지 순서에 대해 알아보겠습니다.일단 파티션과 메시지 순서 메커니즘을 알아보기 위해 생성한 토픽에 파티션 수가 3이고 리플리케이션 팩터 옵션은 1로 설정 후 메시지를 전송해보겠습니다.출력을 해본 결과 a부터 순

2021년 9월 7일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 컨슈머(Consumer) [9]

이번 포스팅을 통해서 아파치 카프카의 컨슈머(Consumer)에 대해 알아보겠습니다. 여기서 컨슈머는 토픽의 메시지를 가져와서 소비(consume)하는 역할을 하는 애플리케이션, 서버 등을 지칭하여 컨슈머라 일컫습니다. 이 컨슈머의 주요 기능은 특정 파티션을 관리하고

2021년 9월 7일
·
0개의 댓글
·
post-thumbnail

아파치 카프카(Apache Kafka)의 프로듀서(Producer) 설정에 따른 성능 [8]

이번 포스팅을 통해서 프로듀서의 옵션 중 acks 옵션을 어떻게 설정하는지에 따라서 카프카로 메시지를 전송할 때 메시지 손실 여부와 메시지 전송 속도 및 처리량 등이 달라지는지 자세히 살펴보겠습니다.메시지를 전송할 때 프로듀서는 카프카 서버에서 응답을 기다리지 않고,

2021년 9월 7일
·
0개의 댓글
·

아파치 카프카(Apache Kafka)의 프로듀서(Producer) [7]

이번 포스팅을 통해서 카프카의 토픽으로 메시지를 보내는 역할을 하는 프로듀서(Producer)의 주요 기능을 알아보고 주요 옵션에는 무엇이 있는지를 살펴보겠습니다.프로듀서의 주요 기능은 각각의 메시지를 토픽 파티션에 매핑하고 파티션의 리더에 요청을 보내는 것입니다. 키

2021년 9월 7일
·
0개의 댓글
·