# grid search

12개의 포스트

Day 54

Machine Learningreviewday6 > ### Sleep Health and Lifestyle Dataset https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset ** https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html Hyperparameters of SVM ![](https://velog.velcdn

2023년 7월 24일
·
0개의 댓글
·

파라미터 수정 방법 3가지

1. Grid Search 매개변수 그리드에서 가능한 모든 조합을 시도하여 최적의 매개변수를 찾아냄. 직관적이고 이해하기 쉽지만, 가능한 모든 매개변수 조합을 탐색하므로 계산 비용이 매우 높을 수 있다. 모든 조합을 탐색하기 때문에 정확한 최적의 매개변수를 찾아낼 수 있다. 2. Randomized Search 임의의 하이퍼파라미터 조합을 시도함. Grid Search 방법에 비해 계산 비용을 줄일 수 있음. 하지만 매개변수 공간의 일부를 평가하지 않을 수 있기 때문에, 최적의 매개변수를 찾을 가능성이 높지 않다. 3. Bayesian Optimization 함수 값(모델 성능)이 일정한 범위 내에서 부드럽고 연속적으로 변화하는 경우에 사용하는 방법 함수의 범위를 베이지안 통계 모델로 모델링하여 최적의 하이퍼파라미터 조합을 찾아낸다. 계산 비용이 높지만 Randomized Search보다 더 효율적으로 최적의 하이퍼파라미터를

2023년 5월 14일
·
0개의 댓글
·

[머신러닝] 하이퍼파라미터 튜닝 (Hyperparameter Tuning) - GridSearch, RandomSearch

✔ Hyperparameter vs Parameter Hyperparameter : 모델링 시 사용자가 직접 새팅해주는 값 ex) learning rate, maxdepth, nestimators 등 Parameter : 모델 내부에서 결정되는 변수 ex) 정규분포의 평균, 표준편차 등 Hyperparameter와 Parameter를 구분하는 기준은 사용자가 직접 설정하느냐 아니냐이다. ✔ Hyperparameter Tuning Hyperparameter Tuning 정의 Hyperparameter optimization 이라고도 함. 모델을 최적화하기 위해 Hyperparameter를 조정하는 과정 train/test 데이터로 분할 후, trian 데이터를 이용한 교차 검증을 통해, 선정한 Hyperparameter 조합의 결과를 비교하여 최적의 Hyperparameter를 찾아낸다. Hyperpara

2023년 5월 2일
·
0개의 댓글
·
post-thumbnail

[ML] HyperParameter Tuning

Decision Tree 기본 하이퍼파라미터 출력 > 결정 트리 예측 정확도: 0.8548 DecisionTreeClassifier 기본 하이퍼 파라미터: {'ccpalpha': 0.0, 'classweight': None, 'criterion': 'gini', 'maxdepth': None, 'maxfeatures': None, 'maxleafnodes': None, 'minimpuritydecrease': 0.0, 'minsamplesleaf': 1, 'minsamplessplit': 2, 'minweightfractionleaf': 0.0, 'randomstate': 156, 'splitter': 'best'} 하이퍼파라미터 튜닝 > Fitting 5 folds for each of 7 candidates, totalling 35 fits GridSearchCV 최고 평균 정확도 수치:0.8513 GridSearch

2023년 4월 3일
·
0개의 댓글
·
post-thumbnail

교차 검증과 그리드 서치

이전 글 이 전에 학습용 데이터셋을 기준으로 잘 맞게 학습시켜 만든 모델을 과대적합된 모델이라 하였다. 하지만 테스트용 데이터셋으로만 평가하면 결국 테스트용 데이터셋에 잘 맞는 모델이 만들어지는 것이 아닌가? 테스트용 데이터셋은 모델을 구현 후 마지막에 딱 한 번만 사용하는 것이 좋다. 그렇다면 max_depth를 이용한 하이퍼파라미터 튜닝은 어떻게 해야하는가? > 여기에서 하이퍼파라미터란(Hyper Parameter)? 모델 학습 과정에 반영되는 값, 학습 시작 전에 미리 조정 > 파라미터(Parameter): 모델 내부에서 결정되는 변수, 데이터로부터 학습 또는 예측되는 값 테스트용 데이터셋을 사용하지 않고,이를 측정하는 간단한 방법은 바로 학습용 데이터셋을 또 나누는 것이다. 이 데이터를 **검증

2023년 1월 3일
·
0개의 댓글
·
post-thumbnail

ML 08. 모델선택

키워드 교차검증 하이퍼 파라미터 튜닝 grid search randomizedSearchCV 교차검증 교차검증을 하는 이유는 과적합을 피하면서 파라미터를 튜닝하고 일반적인 모델을 만들고 더 신뢰성 있는 모델 평가를 진행하기 위해서입니다. 고정된 test set을 통해 모델의 성능을 검증하고 수정하는 과정을 반복하면, 결국 내가 만든 모델은 test set 에만 잘 동작하는 모델이 된다. 즉, test set에 과적합(overfitting)하게 되므로, 다른 실제 데이터를 가져와 예측을 수행하면 엉망인 결과가 나와버리게 된다. 이를 해결하고자 하는 것이 바로 교차 검증(cross validation)이다. 교차 검증은 train set을 train set + validation set으로 분리한 뒤, validation set을 사용해 검증하는 방식이다. ![](

2022년 11월 22일
·
0개의 댓글
·

[kaggle] - 범주형 데이터 이진분류

Intro 캐글의 플레이그라운드 대회 'Categorical Feature Encoding Challenge' compeition에 참가해 이진 분류 문제를 해결해보았다. 이 경진대회는 인위적으로 만든 데이터로 구성되어 있으며 각 feature와 타깃값의 의미를 알 수 없다는 특징을 가지고 있다. 또한 모든 데이터가 범주형이며, bin\으로 시작하면 이진 feature, nom\으로 시작하면 명목형 feature, ord\_로 시작하면 순서형 feature이다. 타깃값도 범주형 데이터이며 0과 1 두개로 구성되어 있기에 이진분류 문제로 볼 수 있다. EDA 데이터 둘러보기 index_col은 불러올 D

2022년 11월 19일
·
0개의 댓글
·
post-thumbnail

[혼자 공부하는 머신러닝+딥러닝] - CH.5-2 Cross Validation & Grid Search

주요 개념 Validatio Set: 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트 Cross Validation: 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련, 이런식으로 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법 Grid Search: 하이퍼파라미터 탐색을 자동화해주는 도구, 탐색할 매개변수를 나열하면 교차 검증을 수행하여 가장 좋은 검증 점수의 매개변수 조합을 선택, 마지막으로 이 매개변수 조합으로 최종 모델 훈련 Random Search: 연속된 매개변수 값을 탐색할 때 유용, 탐색할 값을 직접 나열하는 것이 아니라 탐색값을 샘플링 할 수 있는 확률 분포 객체를 전달, 지정된 횟수만큼 샘플링하여 교차 검증을 수행하기에 시스템 자원이 허락하는 만큼 탐색량 조절 가능 ![](https://velog.velcdn.co

2022년 11월 15일
·
0개의 댓글
·
post-thumbnail

[Aiffel] 아이펠 33일차 개념 정리 및 회고

1. 딥러닝 개념 정리 1) 퍼셉트론 레이어를 이루고 있는 각각의 노드를 퍼셉트론이라고 칭함 |신경세포|퍼셉트론| |:-:|:-:| |신경세포 구조|퍼셉트론의 구조| |가지돌기|입력 신호| |축삭돌기|출력 신호| |시냅스|가중치| |세포 활성화|활성화 함수| 2) 활성화 함수 (1) 기본 정리 의미 어떤 조건을 만족시킨 여부와 관련 특정 조건을 만족시킬 경우 '활성화'시킴 사용 이유 **딥러닝 모델의 표현력(representation capacity, expressivity)을 향상시키

2022년 2월 13일
·
0개의 댓글
·

ANN 하이퍼파라미터 튜닝

학습내용 Keras validation set sklearn의 traintestsplit 대신, 케라스에는 validation_data라는 편리한 기능이 있다. 모델을 학습할 때 validation_data에 테스트 데이터를 입력하면 케라스에서 자동으로 테스트셋의 일정 부분을 검증용 데이터로 사용. 하이퍼파라미터 튜닝 용어 정리 파라미터 : 모델 및 데이터의 특성을 나타내는 것(ex. 정규분포의 평균) 하이퍼 파라미터 : 모델 학습 시 사용자가 조정할 수 있는 값(ex. ANN의 learning_rate) 하이퍼파라미터 튜닝 grid search random search bayesian methods : 이전 탐색 결과를 반영해서 이후의 하이퍼 파라미터 튜닝의 성능을 높이는 전략, keras-tuner를 쓰면 간단하게 구현가능 튜닝 가능한 파라미터 옵션 batch size training epochs

2021년 6월 11일
·
0개의 댓글
·

Model Selection

학습내용 RandomizedSearchCV 파라미터들의 범위를 지정하여 설정하고 랜덤으로 조합하여 그 중 최선의 파라미터 조합을 선정해주는 방법 최적 파라미터의 범위를 잘 모를때 사용하며, 일반적으로 많이 쓰인다. GridSearchCV 설정한 모든 가능한 파라미터 조합을 다 시험해보는 방법. 도메인 지식이 어느정도있어 최적 파라미터가 대략적으로 위치하는 범위를 알때 사용하기 좋음. Target encoder 해당 feature의 범주마다 target값의 평균으로 인코딩하는 방식. smoothing은 범주마다 평균에서 떨어지는 정도를 나타내는 것이라고 생각하면됨.

2021년 4월 15일
·
0개의 댓글
·

Logistic Regression

학습내용 Validation data train : 학습데이터 validation : 학습시킨 모델을 평가하여 모델을 발전시켜나가는데 사용되는 데이터 test : 모델의 최종 성능 확인 데이터 Logistic Regression classification의 한 종류 분류모델의 성능평가는 일반적으로 accuracy를 많이 사용함 위의 수식을 이용하여 관측치가 특정 클래스 속할 확률값을 계산하여 classification 아래의 odds를 이용하면 결과에 대한 해석이 좀 더 쉬워짐 odds에 로그를 취해 변환하면 선형회

2021년 4월 8일
·
0개의 댓글
·