https://www.acmicpc.net/problem/2159원래 백준 풀이는 안적는데 검색해도 파이썬 풀이가 없길래(틀린 풀이만 있음) 적는다. dp를 이용했고 네 점과 네 점을 계속해서 비교하여 최소값을 갱신하는 식으로 풀었다. 주의할 점은 행과 열을
맵리듀스는 데이터 처리를 위한 프로그래밍 모델이다. 맵리듀스는 태생 자체가 병행성을 고려하여 설계되었고, 누구든지 이를 이용해 데이터 분석을 할 수 있다. 맵리듀스는 대용량 데이터셋에서 진가가 드러난다.예시로 쓰일 기상 데이터는 https://www.ncei.
오늘날 우리는 데이터 시대에 살고 있다.수많은 곳에서 매일 엄청난 데이터가 만들어지고 있고 많은 사람들이 이것을 처리하기 위해 노력한다. 이러한 현상이 우리에게 의미가 있을까? 있다!수많은 데이터를 수집해 데이터셋을 공개하면 사람들은 그것을 다운받아 정보 공유를 하고
이전에 사용했던 kaggle의 Data Science Job Salaries 데이터세트를 사용하겠다. https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries가장 큰 차이점은 Spark 2.0에서는
이번에 분석할 데이터는 kaggle에서 가져왔다.https://www.kaggle.com/datasets/ruchi798/data-science-job-salarieskaggle에는 공개된 데이터가 정말 많아 실습용으로 사용하기 좋다.가져온 데이터는 Data
가상머신을 사용하고 있기 때문에 putty에서 wget 명령어를 이용해 데이터를 다운받을 것이다. 그러기 위해 github에 데이터를 업로드 해야한다.8division1.data란 데이터를 업로드했다. 업로드한 데이터를 우클릭하면 데이터의 위치가 나오고 그 위치를 wg
HDP 2.65를 통해 ambari에 접속 후 하이브를 사용하였다.접속하면 엄청나게 많은 hadoop ecosystem이 있다. 언제 다 사용할 수 있을지 모르겠다,,오른쪽 상단에 있는 격자무늬 아이콘을 클릭하면 세부기능이 나타나는데 HIVE VIEW를 클릭하면 된다.
사용할 데이터는 데이터 공개사이트에서 다운받아 사용할 수 있지만 크롤링을 이용해 직접 데이터를 수집하였다.무신사스토어 홈페이지 실시간 랭킹 - 바지 항목에서 1위부터 900위까지 제품들의 브랜드명, 제품명, 가격을 TEXT파일에 저장하였다.1) 종종 크롤링을 하기 위해
비순환 방향 그래프 (Directed Acyclic Graph) DAG라고 부르는 비순환 방향 그래프는 사이클이 없는 방향 그래프이다. DAG은 주로 이벤트간의 우선순위를 나타낼 때 사용한다. 사이클이 있으면 DAG이 아니므로 주의해야 한다.
Kafka : 데이터 파이프라인, 스트리밍 분석, 데이터 통합을 위한 오픈 소스 분산 이벤트 스트리밍 플랫폼(distributed event streaming platform) 준비물 : aws 계정, docker 설치파일 docker 파일 설치후 터미널 재시작 해야한다. 안그러면 설치 업데이트 미반영 됨. 그 후 single-consumer 파일 설...
정렬(Sort)이란 자료의 원소들을 특정 기준에 의해 작은 값부터 큰 값 혹은 그 반대 순서로 재배열하는 것. (오름차순 정렬 / 내림차순 정렬)아래에 제시한 소팅들의 정렬 과정은 모두 오름차순 기준이다. O(n^2)버블 정렬은 매번 연속된 두 수를 비교하여 큰 값이
EventBrigde : 서버리스 이벤트 버스로 다양한 이벤트를 받아서 라우팅, 필터링, 트리거링할 수 있다. 특정 규칙을 지정하고 그 규칙에 부합하면 AWS의 다른 서비스를 호출할 수 있다. 여기서는 일정 시간마다 AWS 서비스를 호출시켜주는 스케줄러로서 사용해보자.
프로그램을 실행시키면, 운영체제는 우리가 실행시킨 프로그램을 위해, 메모리 공간을 할당한다. 프로그램이 운영체제로부터 할당받는 메모리 공간은 다음과 같다.1\. 코드(code) 영역2\. 데이터(data) 영역3\. 스택(stack) 영역4\. 힙(heap) 영역프로그
s3 : 모든 데이터들을 저장할 데이터 레이크같은 역할버킷 : bucket, 객체가 파일이라면 버킷은 연관된 객체들을 그룹핑한 최상위 디렉토리, globally unique name이기 때문에 이름 지을 때 중복을 조심해야 한다.준비물 : AWS 계정, Log Json
DB를 사용하면서 데이터의 양(Row)이 늘어남에 따라 실행 결과의 속도의 차이가 난다. 특히 JOIN, 서브 쿼리 사용 시 발생하는 곱연산에 따른 데이터의 양은 엄청나게 증가하게 된다. 이러한 데이터의 증가로 인해 WHERE 조건절로 필요한 데이터만 추출해서 사용하였
메모리 관리 기법은 크게 연속 메모리 관리와 불연속 메모리 관리로 나뉜다.프로그램 전체가 메모리에 연속적으로 할당되어야 하는 관리 기법고정 분할 기법 : 메모리가 고정된 파티션으로 분할, 내부 단편화 발생동적 분할 기법 : 파티션들이 동적 생성, 자신의 크기와 같은 파
TCP와 UDP는 TCP/IP의 전송계층에서 사용되는 프로토콜이다. 전송계층은 IP에 의해 전달되는 패킷의 오류를 검사하고 재전송 요구 등의 제어를 담당하는 계층이다.TCP는 Transmission Control Protocol의 약자인데, 이를 해석하면 TCP를 해석
데드락이란 일련의 프로세스들이 서로가 가진 자원을 기다리며 벽돌처럼 block되어 더 이상 진행이 될 수 없는 상태를 말한다. 그림처럼 각각의 자동차가 모두 자기 앞에 있는 자동차가 지나가기를 기다리는 상황이 되어 모든 차가 더 이상 움직일 수 없는 상태를 말한다. 예
트랜잭션은 데이터베이스 내에서 데이터를 처리하는 작업 수행의 논리적인 작업 단위(하나의 그룹)를 의미한다.트랜잭션은 작업의 완전성을 보장해야한다. 즉, 논리적인 작업 셋을 모두 완벽하게 처리하거나 또는 처리하지 못할 경우에는 원 상태로 복구해서 작업의 일부만 적용되는
어떤 작업을 실행할 수 있는 파일파일이 저장장치에 저장되어 있지만 메모리에는 올라가 있지 않은 정적인 상태 ⇒ 즉 사용자가 눌러서 실행하기 전의 파일. 코드 덩어리 운영체제로부터 시스템 자원을 할당받는 작업의 단위프로그램을 실행하는 순간 파일은 컴퓨터 메모리에 올라