# bigdata

95개의 포스트
post-thumbnail

DX, Big Data, Data mining 에 대해 설명해주세요.

DX, Big Data, Data mining 에 대해 설명해주세요.

2일 전
·
0개의 댓글
·
post-thumbnail

[Hadoop] Hadoop 3.3.0 standalone 서버 구축 삽질기

Hadoop standalone 서버 구축 가이드

2023년 3월 23일
·
0개의 댓글
·
post-thumbnail

Day1_01 파이썬 기초

제로베이스_데이터 사이언스 스쿨 13기 01. 파이썬이란? 1991년 네덜란드 개발자 귀도 반로섬이 만듦. 처음 소규모 프로젝트에 사용하기위해 만들어졌으나 이후 주변 사람들에게 인기를 얻어 완성도가 높은 파이썬이 탄생. https://www.python.org/ 에서

2023년 3월 3일
·
0개의 댓글
·
post-thumbnail

빅데이터 프레임워크 비교 분석

빅데이터 처리로 하둡이 대표적입니다.그렇다면 오늘 빅데이터 프레임워크인 Hadoop, Spark, Hive 하지만 추구하는목적과 용도가 다른 세 프레임에 대해서 알아봅시다.최근 기업에서 데이터 분석에 관심을 갖고 데이터 분석 기반의 의사결정을 내리고 있습니다.이런 빅데

2022년 12월 7일
·
0개의 댓글
·

[BigData] Text Mining

Text Mining & Data Visualization

2022년 11월 28일
·
0개의 댓글
·

[IT] 빅데이터(Big Data)란 무엇일까?

빅데이터에 대해 알아보자!

2022년 11월 26일
·
0개의 댓글
·

[BigData] Text Mining

Bag-of-Words, TF-IDF

2022년 11월 22일
·
0개의 댓글
·
post-thumbnail

Hadoop WordCount 오류 정리

Hadoop 설치 완료 후 발생한 오류

2022년 11월 16일
·
0개의 댓글
·

[Big Data] 하둡(Hadoop)

하둡은 고가용성 분산형 객체 지향적 플랫폼(High Availability Distributed Object Oriented Platform)의 약자로 오픈소스, Java 기반의 빅데이터 어플리케이션용 데이터 처리와 스토리지를 관리하는 빅데이터 분산 플랫폼이다. 컴퓨터

2022년 11월 13일
·
0개의 댓글
·
post-thumbnail

[aws] EMR basic (1)

빅데이터 이야기...'분산'이라는 사상이 아주 중요하다.저장소를 분산해보자는 개념에서 HDFS가 등장했고, 처리를 분산해보자는 생각에서 Map Reduce가 등장했고, 이외의 것들도 분산처리를 해보자는 개념에서 YARN이 등장했다.빅데이터 이야기에서는 '분산'이 아주

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

[DB] NoSQL Column-oriented, Column Family DB

Column-orientedData Table을 Column 단위로 쪼개어 저장하는 DB를 의미Row-oriented는 하나의 Row가 하나의 Disk Block 안에 저장Column-oriented 방식은 하나의 Column이 하나의 Disk Block 안에 저장 R

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

[Delta] 델타로그 CleanUp 문제 분석

최근 스파크를 이용하여 스트리밍 데이터를 델타레이크로 저장할 때 발생한 문제를 소개하고자 한다. 현재 작업 중인 환경에서는 스파크 스트리밍의 마이크로 배치 처리시간이 평균적으로 일반적인 쓰기 작업은 10 초 내외이고, 10 번의 쓰기 작업마다 새로운 체크포인트 파일을

2022년 11월 6일
·
0개의 댓글
·

Spark Configuration

spark configuration 정리

2022년 10월 29일
·
0개의 댓글
·
post-thumbnail

[Delta] 멀티파트 체크포인트 분석

스파크를 이용하여 스트리밍 데이터를 델타레이크로 저장할 때 체크포인트가 성능에 어떠한 영향을 미치는지 살펴보고, 이를 개선할 수 있는 멀티파트 체크포인트 기능에 대해 알아보도록 하자.(아래의 실험 환경은 모두 마이크로 배치 간격이 1 분으로 설정되어 있다.)위의 그래프

2022년 10월 27일
·
0개의 댓글
·

[Delta] 읽기 성능 최적화

델타레이크는 효율적인 읽기 작업을 위해 여러 가지 최적화 기법을 제공한다. 최적화 기법은 크게 델타로그를 이용해서 데이터 파일을 필터링하는 방식과 파케이(Parquet)가 제공하는 필터링 기능을 이용하는 방식으로 나뉜다. 오늘은 아래 예제를 이용해서 필수적인 최적화 기

2022년 10월 18일
·
0개의 댓글
·

[BigData] Graph Mining

Graph Mining

2022년 10월 17일
·
0개의 댓글
·

[Delta] 델타로그 최적화

델타레이크는 쓰기 작업이나 여러 최적화 과정(Compaction, Z-Order, ...)이 반복될수록 로그가 쌓여간다. 이렇게 로그가 지속적으로 쌓여가면 마지막 상태 정보를 담고 있는 스냅샷을 만드는 작업이 점점 더 오래 걸릴 수 밖에 없어진다. 이 문제를 개선하기

2022년 10월 17일
·
0개의 댓글
·
post-thumbnail

DW, EDW, RDW, ADW and ETL

데이터 웨어하우스(Data Warehouse, DW): 정보(Data) + 창고(Warehouse)의 의미가 합성되어 만들어진 어휘기존 정보를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키며, 조직의 변화를 지원하고 비용과 자원관리의 효율성을 향상시키는 것

2022년 10월 16일
·
0개의 댓글
·

[Delta] 델타로그 분석

스파크로 유명한 데이터브릭스에서 몇 년전에 공개한 델타레이크(DeltaLake)라는 기술은 데이터레이크와 데이터웨어하우스의 장점을 합친 레이크하우스 아키텍처의 핵심 기술이다. 이는 기존에 (기술적인/비용적인 한계로 인해) 원시 데이터는 데이터레이크에, 가공 데이터는 데

2022년 10월 15일
·
0개의 댓글
·

[BigData] Statistics

Statistics

2022년 10월 11일
·
0개의 댓글
·