데이터 전처리

조권휘·2022년 7월 10일
0

Codeit_머신러닝

목록 보기
8/13

데이터 전처리

  • 데이터를 그대로 사용하지 않고, 가공해서 모델을 학습시키는데 좀 더 좋은 형식으로 만들어주는 것

Feature Scaling

  • 머신러닝 모델에 사용할 입력 변수들의 크기를 조정하여 일정 범위 내에 떨어지도록 바꾸는 것
  • 경사 하강법을 사용하는 모든 알고리즘의 속도를 더 빠르게 할 수 있다.
  • min-max-normalization, 표준화과 같은 방식이 있다.

Min-Max-Normalization

  • data의 최솟값, 최댓값을 이용하여 데이터의 크기를 0~1 사이의 값으로 변환한다.
  • 입력 변수(feature)를 0과 1 사이 범위의 숫자들로 scaling한다.

Feature Scaling과 경사 하강법

  • 같은 높이에 있는 점들의 집합을 '등고선'이라고 한다.
  • 특정 지점에서 경사가 가장 가파른 방향은 등고선과 수직이 되는 방향이다.
  • feature scaling을 진행하면 그래프를 그렸을 때 조금 더 동그란 형태의 그래프가 나온다. 이 때 경사하강법을 진행하면 더욱 빨리 최소점을 찾을 수 있다.

표준화(Standardization)

  • feature scaling의 방법 중 하나로, data를 일정한 크기의 숫자들로 조정한다.
  • 표준화를 하면 항상 새로운 데이터의 평균은 0, 표준편차는 1이 된다.

One-hot-Encoding

데이터의 종류

  • 수치형(numerical) 데이터 : 나이, 몸무게, 키
  • 범주형(categorical)데이터 : 혈액형, 성별
  • 선형 회귀와 같은 알고리즘에서는 주로 수치형 데이터를 이용한다.

그러면 범주형 데이터는 어떻게 처리해야하는가?

  • One-hot Encoding
    • 범주형 데이터를 수치형 데이터로 바꾸는 방법

  • 데이터의 크고 작음의 관계가 생기는 것을 방지하면서도 수치형 데이터로 바꿀 수 있다.

본 포스트는 코드잇 강의를 공부하며 정리한 내용입니다! 자세한 설명은 "코드잇 머신러닝 강의를 참고해주세요!

+) 코드잇 강의 바로가기

profile
안녕하세요 :) Data/AI 공부 중인 한국외대 컴퓨터공학부 조권휘입니다.

0개의 댓글