개요
머신러닝 개념과 프로세스(전체 흐름)에 대한 숲 그리기
📌지도학습, 비지도학습, 강화학습
![](https://velog.velcdn.com/images/codataffee/post/d4f183c2-9946-4599-84fc-d3d5154a5e19/image.png)
- 빅데이터 분석기사 실기 시험은 "지도학습"으로 진행
📌 전통적인 접근방식과 머신러닝 접근방식
![](https://velog.velcdn.com/images/codataffee/post/8af065af-9076-4555-a70e-6e65bcc7ca1c/image.png)
![](https://velog.velcdn.com/images/codataffee/post/d3329740-f413-46de-9a52-b81d07581b69/image.png)
- 규칙을 만드는 것이 사람? 머신러닝? 에 대한 차이
📌 머신러닝 프로세스
![](https://velog.velcdn.com/images/codataffee/post/58f9c7ca-8680-49f1-bb57-a2fa7108cda9/image.png)
- 머신러닝 프로세스는 문제정의 ~ 예측 순으로 진행 !
📌 문제정의
![](https://velog.velcdn.com/images/codataffee/post/f800f15d-9333-4603-ac5f-cc61ca5d50e4/image.png)
- 문제가 무엇인지 확인!
- 분류인지 회귀인지
- 예측할 컬럼이 무엇인지
- 확률을 구하는 것인지, 0과 1의 값을 구하는 것인지
- MSE, MAE, RMS 인지? / AUC, ACCURACY, F1 인지?
- 확장자명, 파일명을 무엇으로 해야하는지
📌 라이브러리 및 데이터 불러오기
![](https://velog.velcdn.com/images/codataffee/post/5406bf3f-1927-4efa-bd65-b0a8d5624dd5/image.png)
- 판다스 라이브러리를 통해 데이터 불러오기
- 훈련용(학습용)
- 평가용 데이터로 추출한 Y 데이터 - 제출
📌 탐색적 데이터 분석(EDA)
![](https://velog.velcdn.com/images/codataffee/post/41cd851f-91d3-47fa-b4be-041c4bce140d/image.png)
- 데이터 샘플/크기 확인
- 결측/이상 값 등 여부
- 타겟 값. 범주/수치형 컬럼 등 확인
📌 데이터 전처리
![](https://velog.velcdn.com/images/codataffee/post/cfbe9628-8843-498e-9ea9-fcd206e28dfe/image.png)
- 결측치 확인 후 제거 또는 대체
- 이상치 확인 후 제거 또는 대체
📌 피처엔지니어링
![](https://velog.velcdn.com/images/codataffee/post/4f4d4f6b-b152-4df3-bdd1-42651846801c/image.png)
- 수치형 컬럼 (int, float 등)
- 범주형 컬럼 (object 등)
- 컬럼을 확인하고 스케일링과 인코딩 작업 진행 준비
📌 피처엔지니어링 - 수치형 컬럼
![](https://velog.velcdn.com/images/codataffee/post/2f3dab8b-cafc-421d-9fed-efcbe494872b/image.png)
- 수치형 컬럼에 적용할 민맥스 스케일링 또는 표준화
📌 피처엔지니어링 - 범주형 컬럼
![](https://velog.velcdn.com/images/codataffee/post/809a6f6c-5b2a-43a2-8417-97b90441a28f/image.png)
- 라벨 인코딩(데이터가 많을 때) 또는 원핫인코딩(데이터가 많지 않을 때)
- 범주형 컬럼에 적용
📌 Train과 Validation 나누기
![](https://velog.velcdn.com/images/codataffee/post/bdfe9609-e582-4729-b798-1df1b356a2ba/image.png)
- 자체 평가를 위해 학습용(train)데이터 중 일부를 검증용 데이터로 분리
📌 모델 선택/훈련/평가/최적화
![](https://velog.velcdn.com/images/codataffee/post/a455333d-48a5-47dc-99c7-16b295ea43e8/image.png)
- 문제에 따라 적절한 모델 선택, 머신러닝을 실행하기 위한 3단계
- 분류인지 회귀인지 확인 !
1) 모델 불러오기
2) fit(학습 / 훈련)
3) predict(예측)
📌 예측
![](https://velog.velcdn.com/images/codataffee/post/2d77d488-f8aa-4c4a-9ddf-975733274466/image.png)
- test데이터를 활용해 예측하고 csv파일을 생성 후 제출