기계학습과 인식

유병주·2023년 6월 25일
0
post-thumbnail

03-기계 학습과 인식

  • 목차 기계학습 기본개념, 방법론 데이터 이해 특징 추출 및 표현 ML : 필기숫자 인식 성능 평가 방법 : 측정기준, 데이터셋 분할 인식문제 해결 가능한 이유

Review

  • reinforcement learning
    • 궁극적으로는 정답이 있으나, 정답을 추출하는 과정(경로)에서 여러 탐색이 필요하거나 많은 수행 작업이 필요로 하는 작업을 강화학습으로 해결할 수 있음
  • sequence of machine learning
    1. Define a problem 문제 정의
    2. Collect data 데이터 수집 ( crawling, importing )
    3. Clean data 데이터 전처리
    4. Choose a model 모델 선택
    5. Train and Test the model 학습 및 검증
      1. 학습 데이터와 검증 데이터는 서로 다른 데이터 셋을 활용

support vector machine (svm)

hyper parameter

  • 학습이 되는 매개변수는 아니지만, 사용자가 입력을 통해 사전에 설정해야 하는 매개변수

인공지능 설계

  1. 데이터 확보

    1. 데이터를 최대한 많이 확보하되, 클래스 간 데이터 밸런스를 유지할 것

      → 데이터 편향을 방지, 클래스 별 비율은 비슷하게

  2. 특징 벡터와 레이블 준비

    1. 클래스를 분류하기 위한 특징 → 어떤 특징을 사용할 것인가 특징 선별
  3. 학습하기

    model.fit(X,Y)

  4. 예측하기

    model.predict(X)

규칙 기반 vs. 고전적 기계 학습 vs. 딥러닝

  • 딥러닝은 어떠한 특징을 사용할 것인지 알아서 특징 벡터를 추출함
    • 사람은 데이터만 준비
    • 특징 학습, 표현 학습이 라고 함
    • 사람이 알지 못한 새로운 특징을 딥러닝이 추출하여, 더 정확한 분류를 할 수도 있음

Machine Learning

  • 특정 Task에 대해서 데이터로 부터 학습을 진행하고 성능 측정 방법에 따라 성능(ex. accuracy ) 등을 측정하는 학습방식

Performance measure

  • 일반화 능력

    • 학습에 사용하지 않았던 새로운 데이터로 측정한 성능
  • 혼동행렬

    • TP, FP, FN, TN

    • T/F : 예측값과 실제값의 일치 여부

    • P/N : 특정 클래스에 대하여 해당 클래스로 예측하는가에 대한 여부

      ex) 실제로 고양이 이나, 고양이가 아니라고 예측한 경우

      ⇒ 예측값과 실제값이 일치하지 않으므로, False

      ⇒ 고양이가 아니라고 예측하였으므로, Negative

      ⇒ 해당 예시는 혼동행렬의 FN 의 한 데이터 임

    • Accuracy = True Positive + True Negative / Total

    • Precision = True Positive / Positive

    • Recall = True Positive / (True Positive + False Negative)

      • (True Positive + False Negative) : True samples
      • Recall은 전수조사가 필요한 부분, 현실적으로 불가능한 부분
profile
데이터분석&엔지니어링이 가능한 AI 서비스 개발자를 꿈꿉니다:)

0개의 댓글