우리는 AI가 필수 교양인 시대를 살게 되었다.
이 4차 산업혁명 시대에서 넘쳐나는 데이터를 얼마나 잘 써먹는지가 능력을 좌우할 것이다.
그러니까, 기초부터 차근차근 다져보자.
직장인에게 대학원이라는 선택지는 매우 고된 길이 될테니...
일단 이번 프로젝트에서 사용하게 될 도구에 대해 알아보자.
Google ColabJupyter Notebook 환경1. 시작하기

로그인: Google 계정 필요
새 노트북 생성: 파일 → 새 노트북(New Notebook)
2. 기본 인터페이스
| 영역 | 설명 |
|---|---|
| 코드 셀 | Python 코드 실행 |
| 텍스트 셀 | Markdown, LaTeX 지원(문서 작성용) |
| 런타임 메뉴 | CPU/GPU/TPU 설정, 런타임 재시작 |
| 파일 메뉴 | Google Drive, GitHub 연동 가능 |
3. 코드 실행
🔷 셀 실행: Shift + Enter
🔷 셀 추가: + 코드, + 텍스트
💡
!명령어로 리눅스 명령 실행이 가능하다.!ls !pip install pandas
4. 파일 업로드 & 다운로드
좌측 패널 → 파일 탭에서 업로드 가능
코드로 업로드
from google.colab import files
uploaded = files.upload()
files.download('결과.csv')
5. Google Drive 연동
from google.colab import drive
drive.mount('/content/drive')
/content/drive/MyDrive 경로 사용이 가능함6. GPU/TPU 사용
런타임 → 런타임 유형 변경 → 하드웨어 가속기에서 GPU 또는 TPU 선택
TensorFlow, PyTorch 같은 딥러닝 라이브러리 가속 가능
7. 필수 단축키
| 단축키 | 기능 |
|---|---|
Shift + Enter | 셀 실행 |
Ctrl + M B | 아래에 새 셀 추가 |
Ctrl + M D | 셀 삭제 |
Ctrl + M L | 라인 번호 토글 |
Ctrl + M . | 런타임 재시작 |
❗ 주의사항
- 세션 만료 시 RAM 초기화 → 데이터 사라짐
- 장시간 사용 시 런타임 자동 종료될 수 있음
- 데이터는 필요 시 Drive에 저장하는 것이 안전
🔷 학습 모델 내 분류
지도 학습 (Supervised Learning)
정의: 입력 데이터와 그에 대응하는 정답(Label)을 함께 학습하는 방식
주요 목적: 예측(Prediction)
예시 알고리즘:
회귀(Regression): 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression)
분류(Classification): 결정 트리(Decision Tree), SVM, 랜덤 포레스트(Random Forest)
딥러닝(Deep Learning): CNN, RNN 등
활용 사례:
이메일 스팸 분류
주식 가격 예측
이미지 분류(고양이 vs 개)
비지도 학습 (Unsupervised Learning)
정의: 정답(Label) 없이 입력 데이터의 패턴이나 구조를 찾는 방식
주요 목적: 군집화(Clustering) / 차원 축소(Dimensionality Reduction)
예시 알고리즘:
K-means, 계층적 군집화(Hierarchical Clustering)
PCA(Principal Component Analysis)
Autoencoder
활용 사례:
고객 세분화(Customer Segmentation)
데이터 시각화
이상 탐지(Anomaly Detection)
강화 학습 (Reinforcement Learning)
정의: 행위(Action)를 취했을 때 환경(Environment)으로부터 받는 보상(Reward)을 통해 학습하는 방식
주요 목적: 정책 최적화(Policy Optimization)
예시 알고리즘:
Q-Learning
SARSA
Deep Q-Network (DQN)
활용 사례:
게임 AI (알파고)
로봇 제어
자율주행차
🔷 인간의 기능에 따른 분류
머신 비전 (Machine Vision)
정의: 인간의 시각 기능을 컴퓨터가 수행하는 기술
주요 기술: 이미지 처리(Image Processing), 객체 인식(Object Detection)
활용 사례:
얼굴 인식 시스템
의료 영상 분석(CT, MRI)
공장 제품 불량 검출
머신러닝 (Machine Learning)
정의: 데이터에서 패턴을 학습하고 예측·결정을 수행하는 인공지능 기술 전반
범위: 지도/비지도/강화 학습을 모두 포함하는 개념
활용 사례: 추천 시스템, 금융 사기 탐지, 고객 이탈 예측
자연어 처리 (Natural Language Processing, NLP)
정의: 인간의 언어 이해 기능을 컴퓨터에 구현
주요 기술: 형태소 분석, 개체명 인식(NER), 감성 분석(Sentiment Analysis)
활용 사례:
챗봇(Chatbot)
기계 번역(Machine Translation)
음성 비서(Voice Assistant)
자연어 생성 (Natural Language Generation, NLG)
정의: 컴퓨터가 인간이 이해할 수 있는 자연스러운 언어를 생성하는 기술
주요 기술: GPT, LLaMA, BERT 기반 생성 모델
활용 사례:
자동 기사 작성
시·소설 창작
코드 자동 생성
🔷 머신러닝의 다섯 가지 그룹
The Master Algorithm(Pedro Domingos)에서 정의한 분류법
머신러닝은 알고리즘에 달린 것과 다름없기 때문에 연관성이 매우 높음
| 그룹 (Group) | 주요 알고리즘 (Main Algorithm) | 근본 분야 (Root Discipline) | 대표 지지자 (Key Advocates) |
|---|---|---|---|
| 상징주의자 (Symbolists) | 역추론 (Inverse Deduction) | 논리 및 철학 (Logic & Philosophy) | 톰 미첼 (Tom Mitchell), 스티브 머그레튼, 로스 쿠인랜 |
| 연결주의자 (Connectionists) | 역전파 (Backpropagation, 신경망/딥러닝) | 신경과학 (Neuroscience) | 안 르쿤 (Yann LeCun), 제프리 힌튼 (Geoffrey Hinton), 요슈아 벤지오 |
| 진화주의자 (Evolutionaries) | 유전 프로그래밍 (Genetic Programming) | 생물학 (Biology) | 존 코자 (John Koza), 존 홀랜드, 허드 립슨 |
| 베이즈주의자 (Bayesians) | 확률적 추론 (Probabilistic Inference) | 통계학 (Statistics) | 데이빗 해커맨, 주디아 펄 (Judea Pearl), 마이클 조던 |
| 유사주의자 (Analogizers) | 커널 머신 (Kernel Machines) | 심리학 (Psychology) | 피터 하트 (Peter Hart), 블레드미르 밥닉, 더글러스 홈스데터 |
🔷 모델 유형
분석 모델(Analytic model)
ex) 수학 공식, 경험에 기반한 예측
학습 모델(Learned model)
ex) 지도 학습, 비지도 학습, 강화 학습
내일부터 본격적으로 머신러닝 파이프라인부터 해봅시다.