각 고유값에 -> 고유 숫자 부여
라이브러리 불러오기 & 레이블 인코딩 준비
fit_transform: 한번에 학습한 결과 출력
확인
'살찔까요' 레이블 인코딩
여러 컬럼 인코딩
cols = df.select_dtypes(include='object').columns
반복문 사용
새 컬럼을 만듦(해당 컬럼이 맞으면 1, 아니면 0으로 채워짐)
활용 데이터
원핫인코딩
카테고리 확인
_
데이터 프레임으로 변환 & 합치기
원본 컬럼은 삭제
여러 컬럼 인코딩(앞, 뒤 과정은 1개 컬럼 인코딩 시와 동일)
pd.get_dummies()
평균 0, 분산 1인 표준정규분포로 변환
StandardScaler 임포트하여 바로 사용
여러 컬럼에 적용
사이킷런 데이터 불러오기
피처 이름 확인 : .feature_names
타겟 확인 : .target
데이터 확인
데이터프레임으로 변환
타겟 추가
데이터셋 확인
당뇨병 데이터
데이터 프레임으로 변환
diabetes_df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
diabetes_df['target'] = dataset.target
X : train 데이터 확인
y : train 데이터 확인
데이터 사이즈
분류 ➡️ 모델 선택 ➡️ 학습&예측
순서accuracy_score(실제값, 예측값)
test_size=0.3
: 데이터를 학습용 70%, 테스트용 30%로 설정
random_state
: 랜덤값 고정해서 같은 결과 빼낼 때 사용
X : train 데이터 확인
y : train 데이터 확인
데이터 사이즈
회귀 ➡️ 모델 선택 ➡️ 학습&예측
순서mean_squared_error(실제값, 예측값)