from pandas.api.types import is_numeric_dtype
- is_numeric_dtype 함수를 가져오는 구문입니다. 이 함수는 주어진 데이터 타입이 숫자형인지 여부를 판단하는데 사용됩니다.
예시
df = pd.DataFrame({
'A': [1, 2, 3],
'B': ['apple', 'banana', 'orange']
})
for column in df.columns:
if is_numeric_dtype(df[column]):
print(f"{column} is numeric")
else:
print(f"{column} is not numeric")
from sklearn.model_selection import StratifiedKFold, train_test_split, GridSearchCV
- StratifiedKFold: "StratifiedKFold"에 대한 언급이었을 것으로 보입니다. StratifiedKFold는 교차 검증(cross-validation)을 수행할 때 각 폴드에서 클래스의 분포가 원본 데이터셋과 동일하도록 보장하는 기술적인 방법 중 하나입니다.
StratifiedKFold는 데이터셋을 K개의 폴드(부분 집합)로 나누는데, 각 폴드 안에서 클래스의 분포가 전체 데이터셋과 유사하도록 유지합니다. 이는 주로 분류 문제에서 불균형한 클래스 분포를 가진 데이터셋에서 모델의 일반화 성능을 평가할 때 유용합니다.
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
- train_test_split: 데이터를 훈련 세트와 테스트 세트로 나눌 때 사용하는 함수입니다. 머신러닝 모델을 훈련하는데 일반적으로 사용됩니다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
- GridSearchCV: 그리드 서치(Grid Search)를 수행하여 모델의 최적 하이퍼파라미터를 찾을 때 사용하는 클래스입니다. 여러 하이퍼파라미터 조합에 대해 교차 검증을 수행하고 최적의 조합을 찾아줍니다.
from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10], 'gamma': [0.001, 0.01, 0.1]}
grid_search = GridSearchCV(SVC(), param_grid, cv=5)