
각각의 모델을 사용해서, 파라미터와 입력하는 피처를 조정하며 최상의 모델을 내었다.
모델이 생성하는 MSE 값이 평균만 예측하는 모델보다 성능이 좋은지 확인
# 트레이닝 데이터의 평균값 계산
y_mean = y_train.mean()
# 베이스라인 모델의 예측 값 생성 (테스트 데이터에 대해)
y_pred_baseline = np.full_like(y_test, y_mean)
# 베이스라인 모델의 MSE 계산 (테스트 데이터에 대해)
mse_baseline = mean_squared_error(y_test, y_pred_baseline)
print(f"베이스라인 MSE: {mse_baseline}")
# 랜덤 포레스트 모델의 MSE 계산
mse_rfr = mean_squared_error(y_test, pred_rfr)
print(f"모델의 MSE: {mse_rfr}")
if mse_rfr > mse_baseline:
print('망한 데이터')
각자 코드 공유했는데, 변수때문에 어움을 겪었다. 서로 같지 않은 변수를 사용하면 코드의 모든 부분을 변경해야해서 시간이 오래걸리고, 실수로 인한 오류가 발생했다. 팀원들끼리 주석을 달고 변수명을 정확히하는 것에는 한계가 있었다.
모델이 지정한 파라미터를 학습하는데에 얼만큼 걸릴지 예측하기 어려웠다. 코랩에서 런타임 끊기는 경울가 많아서 다시 해야하는 경우가 많아서 힘들었고, 로컬에서 2일아나 돌려도 되지 않는 경우가 많았다.