
오늘 갓생살기 8일차!
머신러닝 기초 보충수업들었다
그래서 그 내용을 정리할려고 한다.
기초부터 새싹반🌱답게 아주아주 잘 정리해주셨다 ദ്ദി ´ᵕ`๑)و♡


쉽게말해,
분류는 카테고리,스팸/정상처럼 나눌수있는것
회귀는 값들을 예측한다


일반적으로
훈련 : 테스트 = 7 : 3 또는 8 : 2
훈련 : 검증 : 테스트 = 6 : 2 : 2
# 필요한 라이브러리 및 데이터 로드
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
import pandas as pd
# 당뇨병 데이터셋 로드
diabestes = load_diabetes()
print(diabetes)
prtin(diabetes.feature_names)
X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.Series(diabetes.target)
# 훈련/테스트 데이터 분할 (8 : 2 비율)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
# 분할 결과 확인
print("원본 데이터:", X.shape)
print("훈련 데이터:", X_train.shape)
print("테스트 데이터:", X_test.shape)
결과값 -
원본 데이터 : (442, 10)
훈련 데이터 : (353, 10)
테스트 데이터 : (89, 10)
뿐만 아니라 해당 데이터, 데이터 컬럼들과 shape가나온다
'train_test_split'를 두번 사용해서 전체 데이터를 훈련(60%),검증(20%),테스트(20%)로 분할
100
|
+----+----+
| |
80 20 <== 테스트
|
+----+----+
| |
60 20 <== 검증 <== 20/80 = 0.25
~~ <== 훈련
# ~~~~~~~ ~~~~~~~ <== 검증 데이터
X_train_final, X_valid, y_train_final, y_valid = train_test_split(X_train, y_train, test_size=0.25, random_state=42)
# ~~~~~~~~~~~ ~~~~~~~~~~~~~ <== 최종 훈련 데이터
# 분할 결과 확인
print("원본 데이터: ", X.shape)
print("훈련 데이터: ", X_train_final.shape)
print("검증 데이터: ", X_valid.shape)
print("테스트 데이터: ", X_test.shape)
데이터의 편향을 방지하는 기술
🖍️공부 정리🖍️
머신러닝 심화과정이 끝났지만 공부를 하더라도 짧은기간내에 공부해야할양이많기에 헷갈리는 용어나 뜻들을 정리할수있는 시간이였다.
또한, 초기 개념부터 다시 한번더 들으며 정리하니 조금더 장기기억속에 저장되는느낌이다. 오늘이 지나면 벌써 2026년이다
내년에도 공부 열심히해서 꼭 원하는 연봉과 직장에 가길 바래본다
미래의 나야 힘냏ㅎㅎㅎㅎ૮꒰ྀིゝ。∂ ྀི꒱ა