데이터 탐색과 검증 분리

김요한·2024년 8월 5일

통계학 기초

통계학

목록 보기

29/30

데이터 탐색과 검증 분리

검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함

1) 데이터 탐색과 검증 분리란?

데이터 탐색을 통해 가설을 설정, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것.
이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임.
탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함

2) 데이터 탐색과 검증 분리는 언제 사용하나?

검증하기 위한 데이터가 따로 필요할 때

데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용.

from sklearn.model_selection import train_test_split

# 데이터 생성
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 데이터 분할 (탐색용 80%, 검증용 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
random_state=42)

# 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 탐색용 데이터로 예측
y_train_pred = model.predict(X_train)

# 검증용 데이터로 예측
y_test_pred = model.predict(X_test)

# 탐색용 데이터 평가
train_mse = mean_squared_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)
print(f"탐색용 데이터 - MSE: {train_mse}, R2: {train_r2}")

# 검증용 데이터 평가
test_mse = mean_squared_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)
print(f"검증용 데이터 - MSE: {test_mse}, R2: {test_r2}")

김요한

이전 포스트

자료수집 중단 시점 결정

다음 포스트

데이터 탐색과 검증 분리

통계학

데이터 탐색과 검증 분리

1) 데이터 탐색과 검증 분리란?

2) 데이터 탐색과 검증 분리는 언제 사용하나?

검증하기 위한 데이터가 따로 필요할 때

자료수집 중단 시점 결정

추가로 통계학을 공부하기 위한 자료 추천

0개의 댓글