PYTHON#13

codataffee·2024년 5월 13일

PYTHON

목록 보기

18/40

개요

머신러닝 개념과 프로세스(전체 흐름)에 대한 숲 그리기

📌지도학습, 비지도학습, 강화학습

빅데이터 분석기사 실기 시험은 "지도학습"으로 진행

📌 전통적인 접근방식과 머신러닝 접근방식

규칙을 만드는 것이 사람? 머신러닝? 에 대한 차이

📌 머신러닝 프로세스

머신러닝 프로세스는 문제정의 ~ 예측 순으로 진행 !

📌 문제정의

문제가 무엇인지 확인!
분류인지 회귀인지
예측할 컬럼이 무엇인지
확률을 구하는 것인지, 0과 1의 값을 구하는 것인지
MSE, MAE, RMS 인지? / AUC, ACCURACY, F1 인지?
확장자명, 파일명을 무엇으로 해야하는지

📌 라이브러리 및 데이터 불러오기

판다스 라이브러리를 통해 데이터 불러오기
훈련용(학습용)
평가용 데이터로 추출한 Y 데이터 - 제출

📌 탐색적 데이터 분석(EDA)

데이터 샘플/크기 확인
결측/이상 값 등 여부
타겟 값. 범주/수치형 컬럼 등 확인

📌 데이터 전처리

결측치 확인 후 제거 또는 대체
이상치 확인 후 제거 또는 대체

📌 피처엔지니어링

수치형 컬럼 (int, float 등)
범주형 컬럼 (object 등)
컬럼을 확인하고 스케일링과 인코딩 작업 진행 준비

📌 피처엔지니어링 - 수치형 컬럼

수치형 컬럼에 적용할 민맥스 스케일링 또는 표준화

📌 피처엔지니어링 - 범주형 컬럼

라벨 인코딩(데이터가 많을 때) 또는 원핫인코딩(데이터가 많지 않을 때)
범주형 컬럼에 적용

📌 Train과 Validation 나누기

자체 평가를 위해 학습용(train)데이터 중 일부를 검증용 데이터로 분리

📌 모델 선택/훈련/평가/최적화

문제에 따라 적절한 모델 선택, 머신러닝을 실행하기 위한 3단계
분류인지 회귀인지 확인 !
1) 모델 불러오기
2) fit(학습 / 훈련)
3) predict(예측)

📌 예측

test데이터를 활용해 예측하고 csv파일을 생성 후 제출

커피 좋아하는 데이터 꿈나무

다음 포스트

PYTHON#14

0개의 댓글