팔당댐 수위 예측 AI 대회 코드 #5 optuna

Bwook (Byoungwook) Kim·2023년 11월 13일
0
glob("./lgb_shifted_optuna_files/*")

optuna 돌릴 파일들을 lgb_shifted_optuna_files에 이미 넣어뒀다.
(x_train, x_test, y_train 등등)

target_col_num = 0
target_columns = ["wl_1018662", "wl_1018680", "wl_1018683", "wl_1019630"]

target_col_num을 0에서 3까지 바꿔가며
각 대교에 가장 적합한 하이퍼 파라미터를 찾는 과정이다.

X_train = pd.read_csv('./lgb_shifted_optuna_files/{}_X_train.csv'.format(target_columns[target_col_num].split("_")[-1]))
y_train = np.load('./lgb_shifted_optuna_files/{}_y_train.npy'.format(target_columns[target_col_num].split("_")[-1]))

원래 넣어두었던 파일의 이름에 맞춰 불러오는 코드이다.
마지막에 쓴 파일의 이름과는 달라 자세한 설명은 생략.

from sklearn.model_selection import train_test_split
X_train, X_valid, y_train_real, y_valid = train_test_split(X_train, y_train[:, target_col_num], test_size=0.2, random_state=42)

원하는 대교의 train test split 해준다.

# lgbm optuna objective function
def obj_lgb(trial):
    params = {
        "objective": "regression",
        "metric": "rmse",
        "n_jobs": -1,
        "random_state" : 42,
        "n_estimators" : trial.suggest_categorical("n_estimators", [1000, 2000, 3000, 4000, 5000]),
        "num_leaves": trial.suggest_int("num_leaves", 2, 256),
        "min_child_samples": trial.suggest_int("min_child_samples", 1, 20),
        "learning_rate": trial.suggest_loguniform("learning_rate", 1e-5, 1e-1),
        "bagging_fraction": trial.suggest_uniform("bagging_fraction", 0.8, 1.0),
        "feature_fraction": trial.suggest_uniform("feature_fraction", 0.8, 1.0),
        "bagging_freq": trial.suggest_int("bagging_freq", 1, 7),
        "feature_fraction_seed": trial.suggest_int("feature_fraction_seed", 1, 7),
        "bagging_seed": trial.suggest_int("bagging_seed", 1, 7),
        "drop_seed": trial.suggest_int("drop_seed", 1, 7),
        "data_random_seed": trial.suggest_int("data_random_seed", 1, 7),
        "boosting_type": trial.suggest_categorical("boosting_type", ["gbdt", "dart"]),
        "early_stopping_rounds": trial.suggest_int("early_stopping_rounds", 15, 50),
    }
    lgb_model = LGBMRegressor(**params)
    lgb_model.fit(X_train, y_train_real, verbose=-1, eval_set=[(X_valid, y_valid)], eval_metric="rmse",)

    preds = lgb_model.predict(X_valid)
    score = rmse(y_valid, preds)
    return score
study = optuna.create_study(direction="minimize")
study.optimize(obj_lgb, n_trials=64, n_jobs=-1)
print('Best trial: score {} \n nparams {}'.format(study.best_trial.value, study.best_trial.params))

이와 같은 방법으로 optuna 해주면 각 대교별로 가장 좋은 하이퍼 파라미터를 찾을 수 있다.
(대교가 4개나 되는 바람에 5fold를 만들면 20번 돌아가야 하므로 cv를 이용하지 않았다)

0개의 댓글