profile
안되면 될 때까지

스파크

비교적 최신 프로젝트에 속하는 아파치 스파크는 분산 인-메모리 데이터 처리 프레임워크이다. 스파크는 스칼라와 파이썬을 지원하는 대화형 데이터 처리 기능을 제공하며 이를 통해 데이터 전처리를 매우 효과적으로 수행할 수 있다.스파크에서 주로 사용되는 추상화 객체는 RDD(

2022년 2월 15일
·
0개의 댓글
·

ADSP-1.데이터의 이해

1)데이터는 '객관적 사실' 이라는 존재적 특성을 가짐\-> 개별 데이터 자체로는 의미가 중요하지 않지만 객관적인 사실을 말함2)'추론,예측,전망,추정'을 위한 근거로 기능하는 당위적 특성을 가짐\-> 다른 객체와의 상호 관계 속에서 가치를 갖는다는 의미1)정성적 데이

2022년 2월 10일
·
0개의 댓글
·

리소스 관리자와 스케줄러

좋은 분산 시스템이 갖춰야할 핵심 요소는 스케줄링과 리소스 관리 기능이다. 하둡에도 효율적인 방법으로 계산 리소스를 할당하고 사용자 애플리케이션을 스케줄링하는 시스템이 존재하며 이를 YARN(Yet Another Negotiator)이라 부른다.YARN은 스케줄링과 리

2022년 2월 2일
·
0개의 댓글
·

하둡이란

아파치 하둡은 대규모 검색 색인을 구축하려고 자바로 개발된 오픈 소스 분산 컴퓨팅 플랫폼이다. 하둡의 원래 개발 목적은 검색 색인에 있었지만 사람들은 곧 하둡의 핵심 개념을 다른 일반적인 문제에도 폭넓게 적용할 수 있게 되면서 하둡은 여러 해 동안 다방면에 활용되고 개

2022년 2월 2일
·
0개의 댓글
·

데이터 과학의 활용 사례

기업은 여느 때보다 다양한 유형의 데이터를 대량으로 활용할 수 있으며 빅데이터가 등장하기 전에는 기업에서 저장하고 처리할 수 있었던 데이터의 양이 예산 때문에 제한적인 경우가 많았다. 그 결과 데이터의 크기를 분석에 필요한 최소 규모로 축소하는 것이 기업의 일반적인 방

2022년 2월 2일
·
0개의 댓글
·

데이터 과학

(이 포스팅은 '하둡과 스파크를 활용한 실용 데이터과학'책의 리뷰이다.)데이터에서 어떤 의미나 통찰을 발견하려고 과학적 방법을 이용하는 '데이터 탐색'과 발견한 의미와 통찰을 비즈니스 맥락에서 활용하는 '소프트웨어 시스템의 구축'을 아우른다.핵심적 측면데이터 과학은 과

2022년 2월 2일
·
0개의 댓글
·

PCA, LDA, SVD, NMF

가장 대표적인 차원 축소 기법으로 PCA는 여러 변수간에 존재하는 상관관계를 이용해 주성분(Principal Component)을 추출해 차원을 축소하는 기법으로 PCA로 차원을 축소할 경우 기존 데이터의 정보가 유실이 최소화 된다.PCA는 가장 높은 분산을 가지는 데

2022년 1월 24일
·
0개의 댓글
·

차원 축소(Dimension Reduction)

많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것으로 일반적인 경우 차원이 증가할수록 데이터 포인트 간의 거리가 멀어지게되고 희소한 구졸ㄹ 가지게됨 수백 개 이상의 피처로 구성된 데이터 스트의 경우 상대적으로 적은 차원에서

2022년 1월 24일
·
0개의 댓글
·

앙상블(Ensemble)

앙상블 학습앙상블 학습을 통한 분류는 여러개의 분류기(Classifier)를 생성하고 결과를 예측함으로써 하나의 분류기를 사용했을 경우 보다 더 정확한 최종 예측을 도출하는 방법을 말한다.이미지, 영상, 음성 등의 비정형 데이터에 대한 분류는 딥러닝의 성능이 뛰어나지만

2022년 1월 19일
·
0개의 댓글
·
post-thumbnail

결정 트리(Decision Tree)

결정 트리머신러닝 알고리즘 중 가장 직관적으로 이해하기 쉬운 알고리즘으로 데이터에 있는 규칙을 학습하여 찾아내 트리(Tree)기반의 분류 규칙을 만드는 것쉽게 생각하면 스무고개 게임과 유사하여 if, else를 통해 규칙을 찾아내 데이터를 점진적으로 나누는 것으로 아래

2022년 1월 19일
·
0개의 댓글
·

Classification

머신러닝 지도 학습의 기본적인 유형인 분류(classification)는 학습 데이터로 주어진 피처와 레이블값(결정값, target)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측한다.기존

2022년 1월 19일
·
0개의 댓글
·