[혼공머신] 1주차 - colab과 scikit-learn 기초 활용

김민영·2024년 1월 2일

딥러닝 머신러닝

혼공학습단

목록 보기

16/22

1. 나의 첫 머신러닝

matplotlib (그래프 라이브러리) 기초 지식

plt.scatter(y축 1차원 배열, x축 1차원 배열) : 산점도 그래프 작성. 여러 번 사용 시, 한 그래프에 다수의 산점도 작성
plt.xlabel(String) : x축 레이블
plt.ylabel(String) : y축 레이블
plt.show() : 그래프 출력

scikit-learn (머신러닝 패키지) 기초 지식

KNeighborsClassifier() : k-최근접 이웃 분류 모델을 만드는 클래스
- n_neighbors : 이웃의 개수 (기본값 5)
- p : 거리 재는 방식 지정 (기본값 2. 1: 맨해튼 거리, 2: 유클리디안 거리)
- n_jobs : 사용할 CPU 코어 지정 (기본값 1. -1 : 모든 CPU 코어 사용)
fit(훈련에 사용할 특성 데이터, 정답 데이터) : 사이킷런 모델 훈련 시 사용하는 메서드.
predict(특성 데이터) : 사이킷런 모델 훈련하고 예측할 때 사용
score(특성 데이터, 정답 데이터) : 훈련된 사이킷런 모델의 성능 측정
train_test_split() : 훈련 세트와 데이터 세트로 나누는 함수
kneighbors() : k-최근접 이웃 객체의 메서드. 가장 가까운 이웃을 찾아 거리와 이웃 샘플 인덱스 반환

2. 데이터 다루기

지도 학습

입력(특성) + 타깃 = 훈련 데이터
샘플링 편향 : 샘플 데이터가 특정 종류에 편향되어 있는 경우,

numpy (배열 관련 라이브러리) 기초 지식

np.shape(배열) : (샘플 수, 특성 수) 출력
np.random.seed(int) : 랜덤 정수 시드 생성
np.arange(int) : 0 부터 int-1 까지 1씩 증가하는 배열 생성.
- 매개 변수가 2개인 경우, 시작 숫자와 종료 숫자 의미.
- 매개 변수가 3개면, 마지막 값이 간격 의미.
np.random.shuffle(array) : 배열을 무작위로 섞음

데이터 전처리

데이터 전처리
- 데이터를 표현하는 기준을 일정하게 맞추는 작업
- 거리 기반 알고리즘일수록 중요
표준점수 (z점수) 방식
- 평균에서 표준편차의 몇 배만큼 떨어져있는지를 의미

미션

기본 미션

코랩 실습 화면 캡쳐하기

선택 미션

Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리

답 : 1
풀이
- 지도 학습 : 정답이 있는 데이터를 활용하여 학습. (ex. 분류, 회귀)
- 비지도 학습 : 정답 레이블이 없는 데이터를 비슷한 특징끼리 군집화하는 방법. (ex. 클러스터링)
- 차원 축소 : 다차원 데이터를 축소해 새로운 차원의 데이터 세트를 생성하는 것.
- 강화 학습 : 정답이 따로 정해지지 않고, 행동에 보상을 받으며 학습하는 방식.

노션에 1차 정리합니당 - https://cream-efraasia-f3c.notion.site/4fb02c0dc82e48358e67c61b7ce8ab36?v=

이전 포스트

혼공학습단 11기 준비 - 머신러닝, 딥러닝

다음 포스트

[혼공머신] 2주차 - 회귀 알고리즘

0개의 댓글