[혼공머신] 1주차

라티모·2024년 7월 7일
0

혼공머신

목록 보기
1/2

진도: Chapter 01 ~ 02

기본 숙제(필수): 코랩 실습 화면 캡처하기
추가 숙제(선택): Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리하기

[기본 숙제]

[추가숙제]

  1. 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 대 사용할 수 있는 학습 방법은 무엇인가요?
    답) 지도 학습

지도 학습: 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용. ex) k-최근접 이웃
비지도 학습: 타깃 데이터가 존재하지 않음. 입력 데이터를 받아 어떤 특징이 있는지 찾는 데 주로 활용.

  1. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
    답) 샘플링 편향

샘플링 편향 : 훈련 데이터와 테스트 데이터를 나누는 과정에서 샘플이 골고루 섞이지 않으면 제대로 된 지도 학습 모델을 만들 수 없다.

  1. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
    답) 행: 샘플, 열: 특성.

주요 내용 정리

01.1 인공지능과 머신러닝, 딥러닝

  • 사이킷런: 머신러닝 라이브러리. (python api)
  • 딥러닝: 머신러닝 알고리즘 중 '인공신경망'을 기반으로 한 방법.
    ㄴTensorflow: 딥러닝 라이브러리 in 구글.
    ㄴPyTorch in 페이스북

01.2 코랩~

학교 프로젝트 때 한 번 깔아봐서 순탄하게 실행 완료~~~

01.3 마켓과 머신러닝

  • 특성: 데이터를 표현하는 하나의 성질.
  • 훈련: 데이터에서 규칙을 찾는 과정. ex) 사이킷런의 fit() 메서드.
  • k-최근접 이웃 알고리즘: 전체 데이터를 메모리에 가진 채로 데이터 몇 개의 직선거리를 재서 다수결을 기준으로 데이터 판단.
  • 정확도: 몇 개 맞췄는지? //// 정확도 = (맞힌 개수) / (전체데이터개수)

~kn_prdict([[30,600]]) 두 번 감싸는 이유

predit()는 여러 개의 샘플에 대해 예측을 수행. 이때 입력값은 항상 2차원 배열 형태.
외부 리스트: 입력 데이터의 각 샘플을 나타내는 리스트들을 담은 리스트. 이를 한 번에 예측.
내부 리스트: 하나의 샘플(벡터). 각 특성값.

02.1 훈련 세트와 테스트 세트

  • 지도 학습
  • 비지도 학습
  • 훈련 세트
  • 테스트 세트
profile
제가 왜 대학생이죠?

0개의 댓글