AI 부트캠프 2일차

DAYOUNG LEE·2021년 5월 7일
0
post-thumbnail

Section1 Note02 : Feature Engineering

학습목표

  • Feature Engineering의 목적
  • string을 다루는 법
  • .apply() : pandas 함수, column,row 단위로 적용가능

Warm-Up : What is feature engineering

data cleaning 관련

a process of extracting useful features from raw data using math, statistics and domain knowledge

ex) Outlier Detection, Handling missing values, One Hot Encoding

Outlier Detection

  • Domain Knowledge
  • Visualization
  • Math/Statistics : two standard deviation**

** standard deviation(표준편차)

Handling missing values

Nan값을 다른 값들의 평균값으로 채우기 etc...

One Hot Encoding

text value를 Numerical value로 변환

Session : N112

Feture Engineering

기존의 Feature들을 조합, 이해하기 쉬운(분석하기쉬운) New Feature를 만들어내는것

Tidy 형태

DataFrame의 형태

  • Row(행)
    하나의 데이터 or observation

  • Column(열)
    하나의 feature

Na, Null, NaN, 0, Undefined 의 차이

NaN(Not A Number)

means 0/0 -- Stands for Not a Number
pandas에서 결측치를 표현하는 방법
type : float

NA(Not available)

결측치, 존재하지 않음

Null

값이 없음

Undefined

값이 없음
undefined는 변수를 선언만 하더라도 할당되지만 null은 변수를 선언한 후에 null로 값을 바꾼다
(출처: https://webclub.tistory.com/1)

0

type : int or float

.apply()

  1. apply 안에 들어갈 함수 선언
  2. column(혹은 row)에 apply 적용

0개의 댓글