profile
'당신을 한 줄로 소개해보세요'를 이 블로그로 대신 해볼까합니다.
post-thumbnail

[빅데이터시스템] DataFrame-2

Temporary Views 데이터프레임을 만든 후, sql를 사용할 수 있도록 만들어 주는 형식. spark session이 끝나고나면 없어진다. DataFrame[id: int, firstName: string, middleName: string,

6일 전
·
0개의 댓글
post-thumbnail

[프로젝트] SMILE:)

youtube 링크 : https://www.youtube.com/watch?v=uHKbEZ2YnD8&feature=youtu.be

2020년 11월 11일
·
0개의 댓글
post-thumbnail

[빅데이터시스템] DataFrame

DataFrame : 큰 데이터들을 처리하기 위해 사용. 데이터들을 테이블형태로 표현해주고, SQL 문을 통해 데이터를 관리할 수 있다. 여러가지 방법으로 DataFrame을 만들 수 있다. 여기서는 RDD 를 이용해서 데이터프레임을 만드는 것을 설명 ro

2020년 11월 11일
·
0개의 댓글
post-thumbnail

[빅데이터시스템] Transformation & Lineage

Transformation Transformation 오퍼레이션을 통해 기존의 RDD에서 새로운 RDD를 만든다. 기존의 RDD에서의 디펜던시가 생기게 된다. spark 시스템에서는 디펜던시를 저장하고 있다가, fault 시 fault tolerance를 수행한다.

2020년 11월 11일
·
0개의 댓글
post-thumbnail

[알고리즘] 그리디 알고리즘

그리디 알고리즘 개요 눈앞의 이익만 취하고 보는 알고리즘 현재 시점에 가장 이득이 되어 보이는 해를 선택하는 행위를 반복 대부분 최적해와의 거리가 멀다 드물게 최적해가 보장되는 경우가 있다. optimization 문제를 해결할 때 이용 : DP 또는 G

2020년 11월 7일
·
0개의 댓글
post-thumbnail

[클라우드기초] - BOSH

Bosh 는 PaaS-TA를 이루는 VM, 서비스들을 관리하는 도구이다.manifest에 클라우드의 대부분의 설정들이 정의되어 있고, YAML 파일로 작성이 된다.KeyWord : 릴리스Bosh는 VM의 관리부터 PaaS상단의 모든 서비스들을 관리한다.IaaS(하드웨어

2020년 11월 7일
·
0개의 댓글
post-thumbnail

[빅데이터시스템] Word Count / Link Prediction

reduceByKey 를 이용하여 value 들의 합을 구한다.어느 단어가 가장 많이 나왔는지 궁금하면, sort 펑션을 통해 알수 있다.자기 자신을 링크하는 페이지가 많을수록 중요한 페이지라고 생각할 수 있음모든 페이지의 링크수를 계산하여 랭크를 매길 수 있다모든 페

2020년 11월 4일
·
0개의 댓글
post-thumbnail

[클라우드 기초] API

API : 모듈끼리 통신하는데에 도움을 주는 중간자 역할REST가 기술의 발전 방향과 잘 맞아 많이 사용하게 되었음XML 로 정의되어 있음이와같이 요청을 보내면 다음과 같이 응답이 온다.SOAP에 비해서 상당히 러프한 편URL을 통해서 요청을 전송한다.최소한의 규격을

2020년 10월 21일
·
0개의 댓글
post-thumbnail

[클라우드기초] cloud 및 PaaS-TA -4

PaaS-TA 가 구축되어 있다면, 소프트웨어는 어떻게 구축하면 될까? PaaS-TA 배포 또는 클라우드 구성을 위한 기본 구성 IaaS openstack은 오픈소스로 제공하고 있고, 다른 플랫폼들은 일부 오픈소스로 구성 -openstack은 클라우드를 위한 하

2020년 10월 21일
·
0개의 댓글
post-thumbnail

[알고리즘] 정렬

평균적으로 $$⊝(n^2)$$의 시간이 소요되는 정렬 알고리즘들 \- 선택정렬 (selection Sort) \- 버블정렬 (Bubble Sort) \- 삽입정렬 (Insertion Sort) 각 루프마다최대 원소를 찾는다.최대 원소와 맨 오른쪽

2020년 10월 14일
·
0개의 댓글
post-thumbnail

[빅데이터 시스템] Pyspark

Pyspark SparkContext pyspark를 사용하기 위해서는 SparkContext를 만들어야한다. SparkContext를 이용해서 ClusterManager를 통해 Job을 WorkerNode에게 부여한다. Creating RDD RDD를 만드는

2020년 10월 11일
·
0개의 댓글
post-thumbnail

[알고리즘] 집합

이 포스트에서는 상호배타적 집합만을 대상으로 한다. 그러므로 교집합은 없다.지원할 연산Make-Set(x): 원소 x로만 이루어진 집합을 만든다.Find-Set(x): 원소 x를 가지고 있는 집합을 알아낸다.Union(x,y) : 원소 x를 가진 집합과 원소 y를 가진

2020년 10월 9일
·
0개의 댓글
post-thumbnail

[클라우드기초] cloud 및 PaaS-TA -3

SaaS : 업무에서 사용하는 소프트웨어의 기능을 네트워크를 통해 필요한만큼 서비스로 이용할 수 있도록 제공하는 모델( Office365, google Docs ... ) 등등 계정을 가지고 있으면 인터넷을 통해 서비스를 이용할 수 있는 것들..위와 같은 것들이 Sa

2020년 10월 8일
·
0개의 댓글
post-thumbnail

[빅데이터시스템] pandas

데이터 분석을 위한 데이터 처리 라이브러리대용량 데이터를 처리하기 위한 함수, 메소드들이 제공 : index와 data로 이루어진 pandas의 데이터구조 : 각각의 인덱스가 series 로 이루어져 있는 pandas의 데이터구조

2020년 9월 29일
·
0개의 댓글
post-thumbnail

[클라우드기초] cloud 및 PaaS-TA - 2

Traditional on-premises (레거시 시스템) : 클라이언트 매니저가 모든 것을 관리IaaS : 클라우드 벤더가 OS까지 관리해주고, 클라이언트 매니저는 그 외의 부분을 관리PaaS : 클라이언트 매니저는 어플리케이션 부분만 개발 및 관리하면 된다.Saa

2020년 9월 24일
·
0개의 댓글
post-thumbnail

[빅데이터시스템] Linear regression

Linear regression 여러 데이터를 분석해서 오차가 가장 적은 하나의 직선을 구하는 것. 빅데이터, 인공지능에서 중요한 수치로 사용 개념 설명 : 여러 직선을 그릴 수 있

2020년 9월 23일
·
0개의 댓글
post-thumbnail

[빅데이터 시스템] Numpy

mathematical operations 부족, speed가 늦음Numeric PythonAlternative to python list : numpy ArrayCalculations over entire arraysEasy and fastslice가 된 이후에는 인

2020년 9월 18일
·
0개의 댓글
post-thumbnail

[알고리즘] 점화식과 알고리즘 복잡도 분석

점화식의 이해 > 점화식 : 어떤 함수를 자신보다 더 작은 변수에 대한 함수와의 관계로 표현한 것 예) 병합 정렬의 수행 시간 >* - 수행시간의 점화식 : T(n) = 2T(n/2) + 오버헤드** ✔️ 크기가 n인 병합 정렬 시간은 크기가 n/2인 병합정렬을 두

2020년 9월 14일
·
0개의 댓글
post-thumbnail

[알고리즘] 차수 (Order)

입력의 크기가 충분히 큰 경우도 효율적인 알고리즘을 찾기위해서는 점근적 분석 방식을 이용한다. O

2020년 9월 12일
·
0개의 댓글
post-thumbnail

[알고리즘] 알고리즘의 분석

시간 복잡도 분석의 종류 - Every-case time complexity analysis (모든 경우) - Worst-case (최악의 경우)

2020년 9월 11일
·
0개의 댓글