- Hadoop 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼 -> 데이터의 양이 많아짐에 따라 분산해서 저장 why? -> 한번에 큰 데이터를 한번에 저장하기 힘들기 때문에 -HDFS (Hadoop Distributed File System) 블록 파일 시스템과 디스크 블록과 같은 유형 마스터(데이터의 위치, 형식보관) - 슬레이브(실...
AWS-EC2 서버에 Ubuntu를 기반으로 하여 개발환경을 설정 중이다. Eviroment in Ubuntu 1. Java > Hadoop,Yarn,Spark,Zookeeper와 같은 시스템은 JVM에서 동작하기에 java설치는 필수적이다. 2. Hadoop > Big Data를 다루기 위해 사용되는 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는...
사용자 명령어 root 디렉토리 리스트 확인 파일시스템 환경 체크 환경변수 확인 디렉토리 생성 (mkdir) local -> HDFS로 복사 (put) HDFS -> local로 복사 (get) HDFS의 두개 파일을 합쳐서 로컬 복사(getmerge) HDFS 내부에서 파일 복사 관리자 명령어 Disk balance 손상된 블록 리스...
Spark What is Spark? 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 -수평적 확장 가능 -속도가 느려도 많은 데이터의 연산이 가능 ( out of memory 발생 x ) Driver program - Cluster manager - Worker node [프로세스 조직] - [소통구(...
SparkSQL 스파크 프로그래밍 내부에서 관계형 처리를 하기 위함 스키마의 정보를 이용해 자동으로 최적화 하기 위함 외부 테이터셋을 사용하기 쉽게 하기 위함 주요 API SQL DataFrame DataSet DataFrame 지연 실행 분산 저장 Immutable SQL 쿼리 실행 가능 CSV,JSON으로 read & write 가능 Spark B...
Kubernetes 컨테이너화된 workroad와 service를 관리하기 위한 이식성이 있고, 확장 가능한 오픈소스 플랫폼 -개발환경에서는 app을 실행하는 container를 관리하고 가동 중지 시간이 없는지 확인이 필요하다. -이때 kubernetes는 app의 확장과 장애 조치를 처리하고 배포 패턴등을 제공하며 이를 쉽게 관리...
Docker Build once , Run Anywhere -> 애플리케이션을 개발, 제공 및 실행하기 위한 개방형 플랫폼. -> 어떤 환경에서도 ML model을 실행 할 수 있도록 하는 것을 의미한다. -> java가 모든 환경에 적용 가능하게 된 것 처럼. Container 애플리케이션을 패키징 및 실...
MLOps ML 시스템 개발(Dev)과 운영(Ops)을 통합하는 것을 목표로 하는 ML 엔지니어링 문화 및 방식 서비스화 -> 성능 저하 여부 / 시스템 문제 발생 여부/데이터 분포 변화 모니터링 / 데이터 백업 etc -> 단방향 흐름의 문제 이를 해결하기 위해 MLOps 탄생 ML + DevOPs = MLOps 버전관리 데이터 버전 모델 버전 ...
DVC DVC는 Data Version Control로 문자 그대로 데이터의 버전 관리를 도와주는 툴이라고 할 수 있다. DVC는 MLproject들의 소스 코드 or 버전 관리를 위해 사용되며 사용방식이 Git과 매우 유사했다. 다만, Git은 대용량 데이터를 업로드하여 보관할 수 없지만 DVC는 가능했다. 설치 및 실습 설치 후 tracking ...
최근 듣고 있는 연사님의 강의를 통해 CI에 대해서 알아 볼 수 있는 시간을 가졌다. 신입 개발자에게 코딩,엔지니어링 요소도 물론 중요하지만, 해당 요소를 많이 기대하지는 않고 기본기를 많이 중요시 한다고 하시면서 CI의 중요성에 대해서 말씀해주시며 CI를 사용하는 습관을 가지면 좋겠다고 조언해주셨다. CI CI란 Continuous Integratio...
Docker 생성 및 배포 실습 (feat.error) IMAGE ID / TAG 할당 SIZE 경량화 python:3-alpine 으로 size 경량화가 가능하다. ![](https://velog.velcdn.com/images/yoo_oon/post/0d239cfc-a24e-4c3b-899f-