[혼공머신] 02. 데이터 다루기

Rampaging Turtle·2025년 1월 9일
0

개념정리

  • 머신러닝 알고리즘 구분

    • 지도학습(supervised learning) : 훈련데이터(엄밀히 따지면 Target) 가 필요
      • 분류 : 모델에 따라 샘플을 몇 개의 클래스 중 하나로 분류
      • 회귀 : 임의의 어떤 숫자를 예측, 두 변수 사이의 상관관계를 분석하는 방법
      • K-최근접 이웃이웃, 로지스틱 회귀, 선형 판별 분석 등이 있다.
    • 비지도학습(unsupervised learing) : 타깃 없이 입력 데이터만 사용하여 데이터의 양상을 파악하거나 변형 (추가로 더 공부해야함)
    • 강화학습(reinforcement learning) : 타깃이 아니라 알고리즘이 행동한 결과로 얻은 보상를 사용해 학습 (추가로 더 공부해야함)
  • 샘플링 편향 : 훈련세트와 테스트 세트가 골고루 섞이지 않고 특정 기준으로 정렬된 상태의 데이터

    from sklearn.model_selection import train_test_split
    train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify=fish_target, random_state=42)
  • 데이터 전처리(data prepocessing)
    거리기반 알고리즘(K-최근접이웃 등)에서 각 특성을 일정한 기준으로 맞추는 등 훈련 전에 데이터를 가공하는 행위

    • 스케일(Scale) 보정
      from sklearn.model_selection import train_test_split
      train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify=fish_target, random_state=42)
    • 표준점수(혹은 z점수, standard score)
      각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지 확인하여 비교
profile
소프트웨어 엔지니어

0개의 댓글

관련 채용 정보