시리즈

Machine Learning

1.[ML] SGD

Ch3 p.90에서 SGDClassifier를 이용한 이진분류가 나왔다. 그런데 SGDClassifier를 비롯하여 SGD에 대한 설명이 부족해서 더 공부해보려고 한다.SGD에 대해 다루기 전, 오차(/손실)와 오차함수(/손실함수), GD를 먼저 다뤄보려고 한다. (얘

2024년 7월 30일

2.[ML] Cross Validation

Ch3 p.91에서 교차 검증을 하는 방법으로 (StratifiedKFold+추가 코드)와 cross_val_score, cross_val_predict에 대해 언급했는데, 각각의 기능과 차이에 대해 정리하고 싶었음scikit-learn의 cross validation

2024년 7월 31일

3.[ML] PR Curve & ROC Curve

Ch3 p.92에서 cross_val_score로 데이터에서 5와 5가 아닌 데이터를 분류하는 코드를 작성한 뒤, 점수를 도출하였다. 5가 아닌 데이터를 뽑아내는 정확도가 각 fold마다 90% 이상이 나왔는데 그 이유는 단지 5가 전체 데이터의 10%에 해당하므로 5

2024년 8월 1일

4.[ML] Multiclass Classification

끝나지 않는 Ch3, 행복하다Multiclass Classification에 대한 전체적인 구조, 내용, 그리고 지난번에 공부했던 confusion matrix와 관련하여 생긴 의문과 해결에 대해 다뤄보려고 한다.Binary Classification은 두 개의 클래스

2024년 8월 4일

5.[ML] Logistic Regression

Logistic Regression is commonly used to estimate the probability that an instance belongs to a particular class. If the estimated probablility is grea

2024년 8월 5일

6.[ML] Linear Regression

선형 모델은 다음과 같이 weighted sum of input features에 constant인 bias term이 더해진 형태를 갖는다.$$y\_{pred}=\\theta_0+\\theta_1x_1+\\theta_2x_2+...+\\theta_nx_n$$$y\_{

2024년 8월 13일

7.[ML] Polynomial Regression

앞에서는 선형적인 형태의 데이터에 선형 회귀 모델을 적용하였다.그렇다면 선형적이지 않은, 더 복잡한 형태의 데이터에 대해서는 어떻게 해야할까?\-> nonlinear data를 학습할 때에도 linear model을 사용할 수 있다. 대신, 데이터 feature들의 거

2024년 8월 17일

8.[ML] Regularization

모델이 학습데이터에 너무 잘 맞으면 overfitting이 일어난다. overfitting은 모델의 일반화 성능을 낮추기 때문에 규제를 통해 줄여야 한다. regularization의 방법은 다양하다. 그 중 이번에 다룰 방법은 linear model에 적용할 수 있

2024년 8월 19일

9.[ML] Support Vector Machines

여태까지 SVM은 분류에만 사용되는줄 알았는데, 책 첫문단 읽고 나서 SVM이 linear or nonlinear classification, regression, outlier detection에 모두 사용된다는 걸 알고 조금 충격받았다,,그림으로 알아보자. 왼쪽 그

2024년 8월 20일

10.[ML] Feature Scaling

SVM을 공부하던 중 모델을 학습하기 전에 feature scaling을 해야한다는 이야기가 있었음. 내가 아는 바로는 feature scaling 방법으로 normalization과 standardization이 있는데, 왜 여기서 후자의 방법을 택하는지 궁금했음.

2024년 8월 25일

11.[ML] Decision Trees

Decision Tree도 분류만 되는 줄 알았더니 분류랑 회귀 둘다 되는 애였네 1) Training iris dataset에서 두 피처(petal length, petal width)를 이용하여 분류 모델을 학습하고 시각화한 결과이다. 데이터는 depth=0인 r

2024년 8월 27일

12.[ML] ML Landscape

"머신러닝은 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야입니다."출처: 혼자 공부하는 머신러닝+딥러닝\-> 여태까지 머신러닝에 관한 여러 정의와 표현들을 봤지만 이거 만큼 마음에 와닿았던 건 없었다!규칙이 길고 복잡해

2024년 9월 10일

13.[ML] 모델 훈련 전에는 뭘 해야 하나요?

내 첫 머신러닝 프로젝트는 작년 여름에 했던 LG Aimers였다. 이때는 데이터 분석이 뭔지도 몰랐고, 머신러닝이 뭔지는 더더욱 몰랐다. 그래서 같은 팀의 언니들과 친구 덕분에 결과물을 만들 수 있었다. 이 이후에 데이터 분석 스터디, 딥러닝 스터디 등 많은 스터디와

2024년 9월 16일

14.[ML] Performance Measures

https://velog.io/@shihyunlim/ML-Cross-Validation https://velog.io/@shihyunlim/ML-PR-Curve-ROC-curve p.148에서 StratifiedKFold와 반복문을 이용하여 sklearn의 cross

2024년 9월 23일

15.[ML] Multi* Classification

https://velog.io/@shihyunlim/ML-Multiclass-Classification이전에 공부했던 내용이라 이번에는 코드 위주로 공부하려 함Multiclass classifier(다중 분류기) 또는 Multinomial classifier(

2024년 9월 23일

16.[ML] GD

이전 글과 내용이 비슷한 것 같지만 다름ㅎㅎ 둘다 보기https://velog.io/@shihyunlim/ML-SGD최적화 알고리즘. 비용 함수를 최소화하기 위해 반복해서 파라미터를 조정가장 가파른 길을 따라 내려가는 것2차원 공간에서 경사 하강법의 이동(영상

2024년 9월 30일

17.[ML] Bias-Variance Trade-off

CH4에서 모델의 일반화 성능을 판단(overfitting과 underfitting 판단)하기 위해 learning curve들을 그렸음. 이후 일반화 오차와 bias-variance trade-off에 대해 언급했는데 설명이 부족하다고 느껴 찾아봄과녁판의 가운데는 정

2024년 9월 30일

18.[ML] Regularization : 이것만 보면 됨

https://velog.io/@shihyunlim/ML-Regularization-no6or2cr이전에 규제에 대해 공부한 적이 있어서 내용 수정 및 추가만 하려고 했는데 수정할 게 좀 많아 보여서 새로 정리하려고 함^-^L2 norm과 L1 norm의 정의

2024년 9월 30일

19.[ML] SVM (2)

결정선은 도로 경계에 위치한 샘플에 의해 결정되며 이런 샘플들을 support vector라고 한다.이때 축이 되는 특성들의 스케일에 민감하기 때문에 StandardScaler를 이용하여 특성의 스케일을 조정하면 결정 경계가 더 정확하게 만들어진다.hard margin

2024년 11월 4일

20.[ML] Ensemble Learning and Random Forests

앙상블: 일련의 예측기(한 개 아님!)앙상블 학습: 일련의 예측기로부터 예측을 수집하여 더 나은 예측을 하는 것앙상블 메소드: 앙상블 학습 알고리즘hard voting(직접 투표): 여러 분류기의 예측을 집계하여, 가장 많이 나온 예측을 최종 예측으로 함(다수결 표)각

2024년 11월 11일