[ DB & SQL(RDBMS, NoSQL) ] DA/DS & AI엔지니어를 위한 DB와 SQL 공부.

0
post-thumbnail

[ DB & SQL(RDBMS, NoSQL) ] 데이터베이스와 SQL & NoSQL 공부 순서 정리.

∇ 데이터베이스와 SQL & NoSQL 공부 순서 정리.

목  차

1. 데이터와 데이터베이스 기본기.

2. 관계형 데이터베이스(RDBMS) 구조.

3. 데이터 모델링 & 정규화

4. 트랜잭션과 동시성 제어.

5. SQL 기본기 → 심화.

6. SQL 성능 최적화.

7. NoSQL (비관계형 DB).

8. 벡터 데이터베이스 (AI 지향)

9. 데이터 분석 & AI 연결.

10. 데이터베이스 보안 & 트랜잭션 심화.

11. 실습.


📗 1. 데이터와 데이터베이스 기본기.


📙데이터 → 정보 → 지식: 차이점

정형/비정형 데이터 & AI와의 관계

파일 저장 vs DBMS (엑셀 한계)

데이터베이스와 DBMS 정의

OLTP vs OLAP (운영 DB vs 분석 DB)

RDBMS vs NoSQL 비교

➕ 심화 포인트

데이터 품질(DQ) 개념: 정확성, 일관성, 적시성

메타데이터의 역할

데이터 거버넌스 기본

📗 2. 관계형 데이터베이스(RDBMS) 구조.


테이블, 행, 열, 스키마

키(Key) 개념 (PK, FK, Candidate, Composite)

무결성 제약조건 (개체/참조/도메인)

스키마 vs 인스턴스

관계형 모델의 기본 원리

➕ 심화 포인트

NULL 처리 방식

ER 모델 → 관계형 모델 매핑

정규화와 성능 균형

📗 3. 데이터 모델링 & 정규화


ERD(Entity-Relationship Diagram) 작성법

엔터티/속성/관계 식별

식별자(Identifier)와 키 설계

1~3차 정규화

BCNF + 역정규화(실무 적용 시기)

➕ 심화 포인트

4NF, 5NF 개념

스타 스키마 vs 스노우플레이크 스키마

📗 4. 트랜잭션과 동시성 제어.


트랜잭션(Transaction) 개념

ACID 원칙

트랜잭션 격리 수준 4단계

동시성 제어: Lock, Deadlock, MVCC

➕ 심화 포인트

Phantom Read, Lost Update

Optimistic vs Pessimistic Locking

DBMS별 처리 차이

📗 5. SQL 기본기 → 심화.


SQL 언어 4종류 (DDL, DML, DCL, TCL)

CREATE TABLE & 자료형

INSERT, UPDATE, DELETE

SELECT 기본, WHERE, ORDER BY

집계 함수, GROUP BY + HAVING

JOIN 종류 및 다중 JOIN, Self Join

Subquery, CTE

윈도우 함수

SQL 날짜/문자열 처리

실습 예제: 영화 평점 데이터 분석

➕ 심화 포인트

ANSI SQL vs DBMS SQL 차이

Pivot, JSON 함수 활용

SQL Injection 방지

📗 6. SQL 성능 최적화.


인덱스(Index) 개념 (B-Tree)

클러스터드 vs 넌클러스터드 인덱스

실행 계획(Explain) 보는 법

SQL 안티패턴: SELECT *

➕ 심화 포인트

Index Seek, Index Scan, Full Table Scan

커버링 인덱스

파티셔닝, Materialized View

📗 7. NoSQL (비관계형 DB).


NoSQL 등장 배경 (빅데이터, 확장성)

CAP 이론

Key-Value DB (Redis)

Document DB (MongoDB)

Columnar DB (Cassandra)

Graph DB (Neo4j)

MongoDB CRUD 실습

Redis 캐싱 실습

➕ 심화 포인트

BASE 이론

Polyglot Persistence 전략

Aggregation Pipeline 활용

📗 8. 벡터 데이터베이스 (AI 지향)


벡터(Vector) 개념 & 임베딩

유사도 검색 원리 (Cosine, Euclidean)

FAISS, HNSW 인덱싱 알고리즘

벡터 DB(Pinecone, Weaviate, Milvus) 개요

텍스트 임베딩 생성 & 검색 실습

➕ 심화 포인트

차원 축소 기법 (PCA, t-SNE, UMAP)

벡터 인덱스 Trade-off

RAG 아키텍처

📗 9. 데이터 분석 & AI 연결.


SQL → Pandas/NumPy 데이터 불러오기

ETL 개념

데이터 웨어하우스(DWH: Snowflake, BigQuery)

BI 도구 연동 (Tableau, PowerBI, Metabase)

DB 데이터를 ML/DL 학습 데이터셋으로 변환

➕ 심화 포인트

Feature Store 개념

실시간 데이터 변화(Change Data Capture)

데이터 품질 및 가공 전략

📗 10. 데이터베이스 보안 & 트랜잭션 심화.


사용자 권한 관리, 최소 권한 원칙

저장/전송 데이터 암호화

컬럼 단위 암호화 (개인/의료 데이터)

트랜잭션 격리 수준 심화

감사(Audit Log), 규제 대응 (GDPR/HIPAA)

➕ 심화 포인트

Zero Trust 보안 개념

동형 암호(Homomorphic Encryption) 기초

📗 11. 실습.


📒 의료/바이오 데이터 프로젝트 실습

  • 공개 바이오/의료 데이터셋 수집/정제

  • ERD 작성 및 RDB/NoSQL 설계

  • SQL/MongoDB 실습: JOIN, Aggregation, 인덱스

  • AI/분석 연계: Pandas, 통계, 벡터DB 유사 검색

➕ 심화 포인트

  • HIPAA/GDPR 준수

  • 데이터 익명화/가명화

  • 의료 데이터 ETL 파이프라인 구축

📒 GIS/농업/수요 데이터 프로젝트 실습

  • GIS/농업/수요 데이터셋 수집/정제

  • 공간 데이터 테이블 설계(PostGIS, Spatialite)

  • SQL/NoSQL 실습: 공간/시계열 쿼리, 벡터DB 활용

  • 데이터 분석 및 시각화: GeoPandas, Folium, BI 도구

➕ 심화 포인트

  • 공간 인덱스(R-Tree) 활용

  • GIS 벡터/래스터 데이터 구조

  • IoT/센서 데이터 연계

0개의 댓글