머신러닝에서 사용되는 데이터는 크게 정형 데이터와 비정형 데이터로 나뉩니다.
정형 데이터
- N x P 형태의 표형 데이터(Table Data)
- 행(row)과 열(column)로 이루어진 구조적인 데이터
- 주로 Excel Data와 같은 테이블 형태로 저장됨
- 예제: X1, X2, X3, ..., X93, Y 등의 컬럼으로 이루어진 데이터셋
- 특징:
- 값이 정리된 형태로 데이터 분석이 용이함
- SQL 데이터베이스나 CSV 파일에서 자주 사용됨
- 머신러닝 모델에 바로 적용하기 쉬움
비정형 데이터
- 이미지(Image), 텍스트(Text) 등 구조화되지 않은 데이터
- 예제: MNIST 손글씨 데이터(16x16 이미지 → 256 차원 벡터로 변환)
- 데이터 변환 과정:
- 16x16 행렬을 Flatten하여 256차원 벡터로 변환
- CNN(합성곱 신경망)과 같은 모델을 통해 특징을 추출하여 학습
- 특징:
- 전처리 과정이 필요함
- 특징을 추출하여 구조화된 데이터로 변환해야 함
- 딥러닝 모델에서 주로 사용됨
머신러닝 개요
머신러닝의 분류
- 지도 학습(Supervised Learning)
- 분류(Classification): 고객 이탈 예측, 질병 진단
- 회귀(Regression): 날씨 예측, 주식 시장 예측
- 특징: 입력 데이터와 정답(Label)을 함께 학습
- 비지도 학습(Unsupervised Learning)
- 군집화(Clustering): 고객 세분화, 추천 시스템
- 차원 축소(Dimensionality Reduction): 빅데이터 시각화, 의미 있는 정보 추출
- 특징: 정답(Label)이 없는 데이터에서 패턴을 학습
- 강화 학습(Reinforcement Learning)
- 로봇 네비게이션, 게임 AI, 자율 주행
- 특징: 보상(Reward) 신호를 기반으로 최적의 행동을 학습
머신러닝 데이터 구성 요소
입력 변수 (X)
- Variables, Features, Columns 라고 불림
- 두 가지 유형:
- 연속형 변수 (Numerical): 2는 1보다 크다는 의미를 가짐 (예: 키, 몸무게, 온도)
- 이산형 변수 (Categorical): 숫자의 대소 의미가 없음 (예: 성별, 색상 등)
출력 변수 (Y)
- Labels, 종속 변수
- 두 가지 유형:
- 회귀(Regression): 숫자 예측 (예: 가격, 온도 등)
- 분류(Classification): 카테고리 예측 (예: 개/고양이, 합격/불합격 등)
머신러닝 알고리즘
알고리즘의 기본 원리
- Algorithm = Input → Process → Output
- 좋은 알고리즘의 기준:
- *오차(Error)**가 낮은 모델이 좋은 알고리즘
- 데이터에 적절히 일반화된 모델이 필요함 (Overfitting 방지)
손실 함수 (Loss Function)
손실 함수는 모델의 성능을 평가하는 핵심 요소입니다.
편향-분산 트레이드오프 (Bias-Variance Tradeoff)
- Error = Variance + Bias
- Bias(편향): 모델이 정답과 얼마나 차이가 있는지 (너무 단순한 모델 → underfitting 발생)
- Variance(분산): 모델이 데이터에 너무 과적합(overfitting)했는지
손실 함수의 수학적 표현
- MSE (Mean Squared Error):
- MAE (Mean Absolute Error):
- RMSE (Root Mean Squared Error):
선형 회귀 (Linear Regression)
단순 선형 회귀 (Simple Linear Regression)
- 독립변수 X 1개, 종속변수 Y 1개
- 수식:
- 최소 제곱법(Least Squares Method) 사용하여 최적화
- 목표: 오차를 최소화하여 최적의 직선을 찾음
다중 선형 회귀 (Multiple Linear Regression)
- 독립변수 X가 여러 개 (예: X1, X2, X3, ...)
- 수식:
- 다변수 회귀를 통해 복잡한 관계를 모델링 가능
왜 제곱(Square) 오차를 사용하는가?
- 절대값 MAE는 미분이 불가능하여 MSE를 많이 사용
- MSE는 미분 가능하고 최적화가 쉬움
- RMSE는 단위가 원래 데이터와 동일하여 해석이 쉬움