[혼공단 7기] 혼공머신 1주차 미션

코덩이·2022년 1월 16일
0

혼공머신

목록 보기
2/7
post-thumbnail

🔈 머신러닝 용어 정리

  • 종류 : 클래스

  • 분류 : 여러 개의 클래스 중 하나를 구별해 내는 문제

  • 이진 분류 : 2개의 클래스 중 하나를 고르는 문제

  • 특성 : 물고기의 길이와 무게 같이 객체의 특징을 뜻하는데 이를 잘 추출하는 것이 중요

🔈 코랩으로 간단한 실습해보기

사용할 데이터

  • fish_data : 2차원 리스트 생성
  • fish_target : 이진분류일 경우 찾고자하는 것은 1, 아닌 것은 0 으로 한다.

k-최근접 이웃

  • k-최근접 이웃 (kn) 모델로 fish_data와 fish_target 데이터로 훈련을 했더니 정확도 100% 를 달성했다.

  • 알고리즘이 객체화된 것을 모델이라고하거나 알고리즘 자체를 모델이라고 하기도 한다.

코랩 실습화면

🔈 머신러닝의 종류

  • 지도학습 : target 데이터가 존재.
    ex) k-최근접 이웃
  • 비지도학습 : target 데이터가 없고 입력만 있을 때
  • 강화학습 : 모델이 어떤 행동을 수행한다음에 주변환경에서 피드백받아 개선해나가는 방식

확인문제 1.
머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요?
①. 지도학습

🔈 훈련 세트와 테스트 세트

  • 훈련 세트 : 모델을 훈련할 때 사용하는 데이터. 클수록 좋기때문에 테스트 세트를 제외한 모든 데이터를 사용
  • 테스트 세트 : 전체 데이터에서 20~30% 를 테스트 세트로 사용하는 경우가 많음. 전체 데이터가 아주 크다면 1%만 덜어내도 충분할 수 있다.

🔈 샘플링 편향

  • 훈련 세트와 테스트 세트에 샘플이 골고루 섞이지 않고 한쪽으로 치우쳣을 경우
  • 이런 경우 정확도에 문제가 생길 수 있다.

확인문제 2.
훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
④. 샘플링 편향

확인문제 3.
사일런킷은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
④. 행: 샘플, 열: 특성

🔈 코랩으로 실습해보기

profile
개발공부중

0개의 댓글