머신러닝 종류 지도학습 (Supervised Learning) : 레이블된 데이터, 직접적 피드백, 예측 결과/미래 비지도학습 (Supervised Learning) : 레이블X , 피드백X, 데이터의 숨은 구조 찾음 강화학습 (Supervised Learnin
퍼셉트론의 결정 함수 : 임계값 theta기준으로 1과 -1로 사용오른쪽 사진의 θ(w’x)=0가 결정경계로 양성/음성 클래스 나뉨 w를 어떻게 찾냐에 따라서 결정경계가 달라짐. 좋은 w를 찾아야함 (다음장) i번째 샘플의 타깃값(xi) η은 j번째 샘플의 특성(j번째
datasets.load_iris() 이용해 붓꽃 데이터셋 적재 test_size=0.3를 통해서 70%는 훈련 데이터 30%는 테스트 데이터로 분할(계층화)데이터 특성 변환하는 도구들은 사이킷런의 preprocessing 모듈 들인데 그 중 특성 표준화는 Standa
🤨svm(Support Vector Machine) : 퍼셉트론의 확장으로 생각 가능 , svm 최적화 대상은 마진을 최대화 하는 것. \-- 마진 : 클래스를 구분하는 결정경계와 이 경계에 가장 가까운 훈련 샘플 사이의 거리, 그리고 이 샘플을 서포트 벡터라고
decision tree 분류기는 설명이 중요할 때 아주 유용한 모델. 결정 트리는 훈련 데이터에 있는 특성을 기반으로 샘플의 클래스 레이블을 추정할 수 있는 일련의 질문을 학습. 결정 알고리즘을 사용하면 트리의 root에서 시작해서 정보이득(IG, Informatio
4장은 데이터 전처리 에 대해서 다루고 있는데 가장 집중해서 들어야 하는 장 같음. 파이팅 하좌! 이 장은 누락된 데이터 다루기범주형 데이터 다루기데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기특성 스케일 맞추기유용한 특성 선택랜덤 포레스트의 특성 중요도 사용의
특성 스케일 조정은 전처리 파이프라인에서 중요한 단계. 결정 트리와 랜덤 포레스트는 특성 스케일 조정에 걱정 필요 無스케일이 다른 특성을 맞추는 대표적 방법 1\. 정규화 (normalization)2\. 표준화 (standardization) 대부분의 정규화는 특성
차원 축소를 사용한 데이터 압축 목차는 주성분 분석을 통한 비지도 차원 축소 선형 판별 분석을 통한 지도 방식의 데이터 압축 커널 PCA를 사용하여 비선형 매핑 로 이뤄진다. 비지도 차원 축소 by 주성분 분석 (PCA) 특성 선택과 마찬가지로 여러가지 특성 추출 기
LDA(선형 판별 분석 )은 규제가 없는 모델에서 차원의 저주로 인한 과대 적합 정도를 줄이고 계산 효율성을 높이기 위한 특성 추출의 기법으로 사용 가능 PCA가 데이터셋에 있는 분산이 최대인 직교 성분 축을 찾으려고하는 반면, LDA목표는 클래스 최적 구분할 수 있는
이번 장은 알고리즘 미세 조정하여 높은 성능의 머신러닝 모델 만들고 성능 평가 방법 배움 머신러닝 모델 성능 평가하고머신러닝 알고리즘 일반적 발생 문제 분석하고머신러닝 모델 세부 튜닝하고여러가지 성능 지표 사용해 모델 예측 서응 평가할 것임 이전 장에서는 여러 전처리
학습 알고리즘 성능 향상에 도움되는 간단하지만 아주 강력한 분석 도구 주어진 훈련 데이터셋에 비해 모델 너무 복잡 == 모델의 df나 모델 parameter가 너무 많다 == 훈련데이터에 모델이 과대적합된다 == 처음 본 데이터에 잘 일반화 안된다 solve) 훈련 샘
(담당파트 9.4, 10.6, 10.8)이번 장에서는 내가 나중에 프로젝트에서 사용하게 될 flask를 다루고 있어서 더 집중해서 보는 챕터.머신 러닝 모델의 현재 훈련 상태 저장하고, SQLite 데이터베이스 사용해 데이터 저장하고, Flask 웹 프레임워크 사용해
이번 장은 선형 회귀주택 데이터셋 탐색최소 제곱 선형 회귀 모델 구현RANSAC을 사용하여 안정된 회귀 모델 훈련선형 회귀 모델의 성능 평가회귀에 규제 적용선형 회귀 모델을 다항 회귀로 변환랜덤 포레스트를 사용하여 비선형 관계 다루기로 이루어 져 있다. 이전 장은 지도
https://colab.research.google.com/drive/1349kWp-wkWywvgzAbJH91djHGExijQ0U?usp=sharing