과기부 AI 수업19 인공지능[머신러닝 요점 정리, Scikit-Learn]

욱이·2024년 5월 22일
0

과기부 AI 수업 정리

목록 보기
19/20
post-thumbnail

요점 정리

  • 머신러닝을 할때는 Data를 처리하는것을 신경 써야한다.
  • 사이키런 같은 경우 전처리가 다 되어있는 데이터 이기때문에 따로 신경을 쓸게 많이 없지만 모든 데이터가 그런것은 아님
  • 전처리에 대한 부분을 항상 염두하고 익숙하게 만드는게 중요
  • 데이터 분류는 학습용과 test용으로 분류(이때 사용하는 함수 train_test_split)
  • train_test_split 으로 데이터를 분할 했을때 변수의 개수는 4가지가 나온다
    (X_train,X_test,y_train,y_test)
  • 학습을 시킬 모델을 만들기
  • 학습이 된 모델들은 평가를 해야한다(성능이 좋게 나올때까지)
  • 학습을 할때는 train 데이터 평가할때는 test 데이터를 사용
  • 성능이 좋다는 것은 절대적으로 정답확률에 의존하지 않는다.(무조건 높다고 좋은것은 아니라는 말)

Scikit-Learn

=> 머신러닝을 위한 파이썬 라이브러리로 다양한 머신러닝 알고리즘과 도구를 제공함

설치

  • sklearn.datasets - 사이키런에 내장되어져있는 무료 데이터
  • sklearn.preprocessing - 데이터 전처리 해주는 변수(숫자인코딩, 정규화, 스케일링)
  • sklearn.ensemble, sklearn.linear_model, sklearn.svm, sklearn.tree, sklearn.cluster 등의 라이브러리가 있다. : 학습시 사용할 모델
  • sklearn.metrics : 분류,회귀 평가
profile
개발자 기록 끄적

0개의 댓글