# dw
[데이터 엔지니어링 데브코스] TIL 21일차 - 데이터 웨어하우스와 SQL과 데이터분석(1)
SQL은 구조화된 데이터(RDBMS)를 다루기 위해 개발된 언어데이터 직군에서는 SQL은 필수이다. 데이터 직군에서는 데이터 요약과 데이터 분석에 초점을 맞춘다.종류DDL(Data Definition Language) : 테이블을 정의한다.ex) CREATE, ALTE

DW(DataWarehouse) vs DL(DataLake) vs DM(DataMart)
Data source 에서 데이터를 수집하여 주제에 맞게 조합하여 저장 해놓는 공간도매점에서 소매점인 소비자에게 가기 전 단계데이터 저장 전 부터 데이터 스키마가 존재하고 구조화 됨.보안성이 높다.과거 DataSource -> Data Consumer로 M \* M 개

7. Day 3-7
학습주제SageMaker 실습학습내용Redshift-ml지금 정책 1개지만일단 먼저 생성만든 역할을 눌러 다시 선택정책을 1개 더 추가정책 추가함2개의 정책이 추가됨양방향 정책현재 세이지 메이커만 principalassum role 확인 후Add principal밑으로

6. day 3-6
학습주제Redshift ML 사용하기sage maker 연동통해 간단한 ML 모델학습내용훈련 셋https://docs.google.com/spreadsheets/d/10uf6mXraekS8wndxl9n_GYsOgA0SdUDhKlLXW9gOkdA/edit머신러닝

4. day 3-4
학습주제 Redshift Spectrum으로 S3 외부테이블 조작해보기 학습내용 S3에 굉장히 큰 데이터가 있는데 이를 Redshift로 로딩하기가 버겁다면 이를 외부 테이블로 설정해서 Redshift에서 조작이 가능하다. S3에 굉장히 큰 데이터가 있고, Reds

3. Day 3-3
학습주제Redshift 기타 서비스학습내용Redshift Spectrum(s3 큰 파일을 외부 테이블로 사용할 수 있게함)Redshift ServerlessAthena (별도 서비스. 스펙트럼과 많은 유사성이 있음.) 아파치 프레스토Redshift ML아파치 프레스토는

2. Day 3-2
학습주제Redshift 백업과 테이블 복구학습내용가변비용, 고정비용에서 조금 다름스냅샷이라고 부름.자동백업메뉴얼 백업.변화양에 따라 잡힐수도 있고, 8시간마다 잡힐수 있고, 다 다름과거 시점의 내용을 가지고 새로운 클러스터를 만들 수 있음스냅샷은 인크리멘탈한 특징 -

1. Day 3-1
학습주제Redshift 고급 기능 실습학습내용권한과 보안백업과 테이블 복구관련 기타 서비스. 스펙트럼, 머신러닝, 아테나Spectrum으로 S3 외부 테이블 조작ML 사용하기(sage maker로 패키징 한 다음 레드쉬프트에서 sql 호출해서 쓸 수 있음. 함수처럼 호

5강. Day 2-5
학습주제Redshift COPY 실습학습내용외부 소스를 다운로드s3 생성 후 외부 소스 업로드IAM 역할 생성클러스터에 역할 부여구글 콜랩에서 COPY 실습s3 콘솔로 이동리전은 레드쉬프트를 생성한 같은 리전으로 선택 (오레곤)기본 선택다 기본 선택 후 버킷 생성아무것

4강. Day 2-4
학습주제Redshift COPY 명령으로 테이블레 레코드 적재하기AWS IAM Role 사용학습내용COPY로 레코드 적재CSV s3에 생성레드쉬프트 s3 접근권한 생성S3, IAM 에 대한 간단한 학습도raw_data 스키마를 통해 아 이 테이블은 외부 소스를 ETL

3강. Day 2-3
학습주제redshift 초기 설정학습내용스키마, 그룹, 유저, 역활 등을 생성테이블을 관리하기 위해 이중 구조를 가짐스키마, 데이터베이스라고도 부름. 폴더 같은 컨셉바로 테이블을 만드는게 아니라 스키마를 먼저 만들어 구역을 나눔raw_data ETL 통해 외부에서 가져

2강. Day 2-2
학습주제redshift 설치학습내용serverless 사용3달 혹은 300불까지 무료불필요시 꼭 셧다운해야함나는 redshift를 써서 그런가 trial이 안뜬다.굳이 서울을 쓸 필요는 없다US 오리곤을 선택레드쉬프트의 고정비용은 더이상 무료비용 제공 X꼭 300불 되

1강. Day 2-1
학습주제 Redshift 학습내용 특징 소개 설치(serverless, Trial) - 최대 3달 혹은 300불 초기 설정(스키마, 그룹, 유저) COPY(벌크 업데이트) 명령으로 테이블에 레코드 적재 AWS S3 버킷 생성. IAM 부여 구글 콜랩에서 연결해서 진

6강. Day 1-5
학습주제실리콘밸리 회사들의 데이터 스택 트렌드 (10개 회사)조사 바탕학습내용데이터 플랫폼이 어떻게 발전해왔나초기 단계: 데이터 웨어하우스 + ETL발전단계: 데이터 양 증가에 따라 더이상 감당하지 못하는 단계 2가지 변화 필요.1\. 데이터 레이크 도입: 비구조화,

5강. Day 1-4
학습주제데이터 웨어하우스 종류와 장단점학습내용데이터 레이크(스토리지) - Iceberg빅데이터 프로세싱 프레임워크(엔진)- SparkIceberg + SparkIceberg 빼고 모두 SQL 기반의 빅데이터 기반 데이터베이스(처리 엔진)최대 2TB까지 처리, 분산 데이

4강. Day 1-3
학습주제학습내용데이터 웨어하우스가 작을 땐 프로덕션 DB이후 클라우드 옵션 사용ResShift, 빅쿼리 등장담점에 대해 논의해본다.클라우드 옵션고정비용 옵션 (redshift)가변비용 옵션 (big query, snowflake)오픈소스는 고정비용에 가깝고정비용은 비용

3강. Day 1-2
학습주제 데이터 조직의 구성원 학습내용 데이터 엔지니어 데이터 인프라 구축 데이터 분석가 DW 데이터 기반 지표 만들고 시각화 내부 직원들의 데이터 관련 질문 응답 데이터 엔지니어 기술 알기를 원하는 곳도 생겨남(AirFlow 등) 데이터 과학자 머신러닝 모델을 만

1강. Day 1-0,1
학습주제 데이터 웨어하우스 관리와 고급 SQL과 BI 대시보드 학습내용 데이터 웨어하우스 중심으로 맞춰져 있음 어떤 데이터 웨어하우스 기술들이 있는지 알아봄 Redshift Snowflake BI 대시보드 옵션들 데이터 웨어하우스가 어떻게 변하고 있는지? 어떤

[SNOWFLAKE] 스노우플레이크에서의 DW
☝ Snowflake에서 DW Snowflake에서 DataWarehouse 는 데이터를 저장하지 않습니다. 데이터 처리를 수행하는데 사용되는 "노동력" 입니다. Snowflake 에서 DataWarehouse를 생성하면 "인력"을 정의하는 것입니다. ✌ 아키텍처