[혼공머신] 3. 마켓과 머신러닝

김소희·2023년 7월 19일

머신러닝/딥러닝

목록 보기

2/6

※ 주요 학습 내용
✓ 마켓과 머신러닝 ▶️마켓을 예로 들어 머신러닝을 설명합니다.
생선 분류 문제
첫 번째 머신러닝 프로그램

도미 길이, 도미 무게 데이터셋

#도미 데이터
bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] 
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

산점도 (scatter plot)

생선의 길이와 생선의 무게 데이터를 입력해줍니다.

import matplotlib.pyplot as plt

plt.scatter(bream_length, bream_weight)
plt.xlabel('length') #축이름 표시
plt.ylabel('weight') #축이름 표시
plt.show()

이에대한 플럿을 적용하면 다음과 같이 점이 찍히게 됩니다.

실행하면 길이가 올라가면 무게도 함께 올라가는 그래프가 나타납니다.
현재는 도미 데이터셋만 있는 산점도(scatter plot) 입니다.

여기서 빙어의 데이터도 추가해보겠습니다.

# 빙어 데이터
smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0] 
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

다시 그림의 점을 추가해보겠습니다.

plt.scatter(bream_length, bream_weight) # 도미
plt.scatter(smelt_length, smelt_weight) # 빙어
plt.xlabel('length') # x축 이름표시
plt.xlabel('weight') # y축 이름표시
plt.show() # 하나의 그래프에 두 개의 데이터를 그려줌 ( 각 색깔별로 달리 보여줌 )

다음과 같이 그림에 데이터가 추가된 것을 확인할 수 있습니다.

이제 도미데이터와 빙어데이터를 하나로 합쳐주어야 합니다.
사이킷런이 기대하는 2차원배열 리스트of리스트 데이터 형태로 바꿔줍니다.

# 도미, 빙어 데이터 합치기
length = bream_length + smelt_length
weight = bream_weight + smelt_weight

# 길이와 무게를 2차원 리스트로 생성 / 리스트 내포 (list 안에 for문이 들어있는 것)
fish_data = [[l, w] for l, w in zip(length, weight)]
fish_target = [1] * 35 + [0] * 14    #1: 도미, 0: 빙어

전체 49개의 샘플을 리스트의 리스트로 만들어줄 수 있습니다.
이제 머신러닝 프로그램을 만들기 위해 정답을 준비해주어야 합니다. 빙어와 도미를 구분해주어야 머신러닝 프로그램이 도미와 빙어의 규칙을 찾을 수 있습니다. 이것을 '지도학습' 이라고 합니다. 공부를 시켜줘야 시험을 볼 수 있겠죠?

이진 분류(Binary Classification) 란 규칙에 따라 입력된 값을 두 그룹으로 분류하는 작업을 의미합니다. 구분하려는 결과가 참(True) 또는 거짓(False)의 형태나 A 그룹 또는 B 그룹으로 데이터를 나누는 경우를 의미합니다

fish_target = [1]*35 + [0]*14 #이진분류

[1,1,1,1,1,1,....0,0,0,0,0,....] # 도미를 찾아야 하기 때문에 도미를 1로 넣고 빙어를 0으로 넣어줍니다.

k-최근접 이웃(k-Nearest Neighbors)

: 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용.

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(fish_data, fish_target) #fit 메서드로 학습
kn.score(fish_data, fish_target) #얼마나 학습됐는지 알아보는 메서드 :정확도 accuracy (1.0 출력 : 100% 맞춤)

이제 새로운 생선데이터를 가지고 (test data) 생선을 예측해봅니다.

시각화 진행

plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.scatter(30, 600, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

kn.predict([[30, 600]])    # 출력: array([1]) → 도미로 예측
print(kn._fit_X)	# _fit_X 속성에 전달한 fish_data를 모두 갖고 있음
print(kn._y)	#_y 속성에 fish_target을 갖고 있음

KNeighborsClassifier 클래스의 참고할 데이터 기본값 = 5 (5개의 주변샘플을 보고 가장 많은 샘플로 다수결의 원칙으로 정답으로 반환)

kn49 = KneighborsClassifier(n_neighbors=49)    #참고 데이터를 49개로 한 모델 잘못된 데이터개수
kn49.fit(fish_data, fish_target)
kn49.score(fist_data, fish_target) #정확도

0.7142857 ... #출력

print(35/49)

0.71428571 ... #출력

김소희

Analytics Engineer

이전 포스트

혼자 공부하는 머신러닝+딥러닝(1~2days)

다음 포스트

[혼공머신] 4. 훈련 세트와 테스트 세트

1개의 댓글

happy

2023년 7월 19일

덕분에 좋은 정보 얻어갑니다, 감사합니다.

답글 달기