[ML] 머신러닝 개요

Minjeong Kim·2025년 11월 14일

인공지능

목록 보기
1/50

머신러닝 개요

  • 개념
  • 종류
  • 과정

머신러닝 개념

AL vs ML vs DL

  • 인공지능: 컴퓨터가 인간의 지적 능력 갖게 하는 것!
  • 머신러닝: 컴퓨터가 스스로 학습해서 (규칙을 찾아서) 예측/분류 등 하는 것!
  • 딥러닝: '인간이 사고하는 것처럼' 만들기 위해, 인공신경망 방식으로 처리하는 것!

인공지능 종류

  • 약한인공지능: 특정 분야
  • 강한인공지능: 모든 분야 -> 인간급
  • 초인공지능: 인간보다 뛰어남

현재는 '강한인공지능'


머신러닝 종류

  • 지도학습: 정답 O
  • 비지도학습: 정답 X
  • 강화학습: 보상

지도학습(Supervised learning)

  • 데이터에 대한 label(명시적인 답)이 주어진 상태에서 학습시키는 방법~
  • 분류(classification) / 회귀(regression)
    • 이 둘을 구분하는 기준: 정답 데이터의 형태
      • Classification: 범주형 데이터 = 카테고리 (like 객관식) 예) 성별, 생존여부, 스팸여부
      • Regression: 연속형 데이터 = 수치 예) 전기 사용량 예측, 집값 예측

Classification

  • 여러 클래스 ‘레이블’ 중 하나를 예측하는 것
  • 입력: 속성 값
    출력: class 값 (= 레이블의 종류) !
  • 이진분류: class 2개
    다중분류: class 3개 이상

Regression

  • 연속적인 숫자를 예측하는 것
  • 입력: 속성 값
    출력: 연속적인 실수 값
  • 예시) 어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득 예측
  • 예측 값의 미묘한 차이가 크게 중요하지 않음

비지도학습(Unsupervised learning)

  • 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터 학습시키는 방법
  • 데이터의 숨겨진 특징, 구조, 패턴을 파악하는데 사용
  • 종류: 클러스터링(clustering), 차원축소(dimensionality reduction) 등
  • 예시
    • 이미지 감색 처리
    • 소비자 그룹 발견을 통합 마케팅
    • 추천에 자주 사용!

강화학습

  • 지도학습과 비슷하지만 완전한 답(label)을 제공하지 않음
  • 언제 사용? → 지도를 못하거나(고양이 학습 시키기) 명확한 정답이 없을 때(바둑 돌 두기)!
  • 기계는 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습
  • 주로 게임이나 로봇을 학습시키는데 많이 사용
    • 예) 로봇 - 길찾기, 알파고 (정답은 없는데, 잘했어/못했어 라고 보상을 주며 학습)

머신러닝 과정

  1. 문제 정의 (Probelm Identification)

    • 비즈니스 목적 정의 모델을 어떻게 사용해 이익을 얻을까?
    • 현재 솔루션의 구성 파악
    • 예) 지도/비지도/강화 중 무엇인지
  2. 데이터 수집 (DataCollect)

    • File(CSV, XML, JSON …)
    • Database
    • Web Crwaler (뉴스, SNS, 블로그)
    • IoT 센서를 통합 수집
    • Survey
  3. 데이터 전처리 (Data Preprocessing)

    분석을 위해 데이터 예쁘고 깔끔하게 만드는 것

  4. 탐색적 데이터분석(EDA)

    • 데이터 어떻게 생겼는지 보는 과정~
    • EDA 방법
      • 기술통계, 변수간 상관관계 등
      • 시각화: pandas, matplotlib, seaborn 등
      • feature seletion (사용할 특성 선택)
  5. Model 선택, Hyper Parameter 조정

    • Hyper Parameter: model 을 조정할 수 있는 부분(인간이 조정할 수 있는 것)
    • 모델 객체 생성됨 (빈 깡통 상태!)
  6. 학습(training)

    • 모델에 데이터 넣어서 학습시킴!
  7. 평가(evaluation)

    • 모델 잘 학습되었는지 평가 ~

데이터 분리

  • 머신러닝 학습을 위해 데이터를 분리
    1. X(속성), y(정답데이터) 분리
    2. train(학습용), test(평가용) 데이터로 분리
  • 용어 정리
    • X: 문제, 입력특성, 속성, feature, attribute, 독립변수
    • y: 정답, label, 종속변수
  • train: 학습시킬 데이터
  • test: 평가할 데이터
  • train 데이터와 test 데이터를 7:3 정도로 나눔 → 평가할 것까지 넣으면 유출되는 고잖옹~
  • 지도학습만 해당 !!!

0개의 댓글