데이터 탐색과 검증 분리
- 검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함
1) 데이터 탐색과 검증 분리란?
- 데이터 탐색을 통해 가설을 설정, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것.
- 이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임.

- 탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
- 데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
- 검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함
2) 데이터 탐색과 검증 분리는 언제 사용하나?
검증하기 위한 데이터가 따로 필요할 때
- 데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용.
from sklearn.model_selection import train_test_split
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)
train_mse = mean_squared_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)
print(f"탐색용 데이터 - MSE: {train_mse}, R2: {train_r2}")
test_mse = mean_squared_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)
print(f"검증용 데이터 - MSE: {test_mse}, R2: {test_r2}")
