지도 학습(Supervised Learning)
데이터에 대한 Label(명시적인 답)이 주어진 상태에서 학습시키는 방법
-
분류(Classification)
- 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것
- 속성 값을 입력, 클래스 값을 출력으로 하는 모델
- 암 양성 음성 중 하나로 분류, 붓꽃(iris)의 세 품종 중 하나로 분류, 생존, 사망 등 크고 작음의 의미가 없음
- 이진 분류, 다중 분류
-
회귀(Regression)
- 연속적인 숫자를 예측하는 것
- 속성 값을 입력, 연속적인 실수 값을 출력으로 하는 모델
- 어떤 사람의 교육수준, 나이, 주거지를 바탕으로 연간 소득 예측 등
- 크고 작음의 크기가 의미가 있음
- 예측 값의 미묘한 차이가 크게 중요하지 않음
비지도 학습(Unsupervised Learning)
데이터에 대한 Label(명시적인 답)이 없는 상태에서 학습시키는 방법
- 데이터의 숨겨진 특징, 구조, 패턴 등 데이터의 성격을 파악하는 데 사용
- 클러스터링(Clustering), 차원축소(Dimensionality) Reduction) 등
강화 학습(Reinforcement Learning)
- 지도학습과 비슷하지만 완전한 답(Label)을 제공하지 않음
- 기계는 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습
- 주로 게임이나 로봇을 학습시키는데 많이 사용
머신러닝 과정
- Problem Identification(문제정의)
- Data Collect(데이터 수집)
- Data Preprocessing(데이터 전처리)
- EDA(탐색적 데이터분석)
- Model 선택, Hyper Parameter 조정
- Training(학습)
- Evaluation(평가)
데이터 수집
- File(CSV, XML, JSON)
- Database
- Web Crawler(뉴스, SNS, 블로그)
- IOT 센서를 통한 수집
- Survey
데이터 전처리
- 결측치, 이상치 처리
- Feature Engineering(특성 공학): Scaling(단위 변환), Encoding(범주형 -> 수치형), Binning(수치형 -> 범주형), Transform(새로운 속성 추출)
Model 선택, Hyper Parameter 조정
- 목적에 맞는 적절한 모델 선택
- KNN, SVM, Linear Regression, Ridge, Lasso,
__