[ML] 딥러닝의 깊이 있는 이해를 위한 머신러닝 1-1 (K-MOOC)

daeungdaeung·2021년 6월 17일
0

Machine-Learning

목록 보기
1/25

머신 러닝에서 데이터는 정말 중요하다!

Pattern Recognition

데이터 마이닝

  • 데이터를 분류하는 특징을 찾고 그 특징을 사람에게 제공

  • 사람의 결정을 도울 수 있는 데이터 마이닝

머신러닝

  • 사람이 결정하는 행위를 모방

데이터

Categorical features

  • Binary feature

  • Nominal feature

    • 일반적으로 생각하는 카테고리

Numerical features

  • Discrete counts

  • Ordinal features

    • 어느 정도 순서가 정해져 있고 랭킹에 가까운 개념
  • Continuous/real-valued features

feature 변환

  • 중요한 것은 features의 분류가 명확하게 나뉘지 않는다는 것

  • categorical feature <-> numerical feature (서로 변환 가능)

  • 어떤 머신러닝을 적용하려면 데이터 종류에 따라 활용방법을 변형 (데이터를 적절한 종류로 변환(ex. categorical -> numerical)하여 머신러닝에 적용한다고 이해함)

Bag of words

  • 입력된 데이터를 머신러닝에 적합한 형태로 변환하는 과정이 필요

Adjacency matrix

  • 연결되어 있는 상태를 표현 (CS에서 그래프를 떠올리면 좋을 것 같다.)

데이터를 바꾸는 방법

  • Feature aggregation: 특징 통합

  • Feature selection: 특정 선택

  • Numerical to categorical (이름이 없어서 일단 임시로...)

    • 구간을 정의하여 연속된 값을 해당 구간으로 설정
  • Feature scaling: 특징 크기 조절

    • Feature scaling을 활용하면 작은 값들의 상대적 분류성을 높일 수 있다.
    • 따라서 효율성을 높일 수 있다.
  • 여러 feature의 평균 값을 활용

    • 평균 or 분산 등
    • 데이터를, 적용하고자 하는 머신러닝 기법에 맞추기 위해 충분히 고민할 것!
profile
개발자가 되고싶읍니다...

0개의 댓글