머신러닝 or 딥러닝의 경우 컴퓨터를 이용하여 데이터를 분석하게 될 것이다.데이터 분석도중에 문자열에 관한 변수도 분명히 있을 것이다. 이러한 문자열에 관한 속성은 아무 전처리없이는 알고리즘이 읽어들이기도 힘들 뿐더러 사용자가 분석에 사용하기에는 적합하지 않다.그래서
결측값?? 결측값은 다양하게 표현이 된다. NA 99999999 (공백) NAN Unknown Not Answer 등으로 표현이 된다. 이번 Kaggle 4회차 대회에서처럼 '?'로도 표시가 되기도 한다. 데이터 수집가가 임의로 정해도 되는듯 하다. 그래도 R은 기본
이상값은 여러 종류가 있다. 삭제해야하는 경우도 있고 그냥 놔둬야 하는 경우도 있다.의도치 않게 잘못 입력 --> 삭제의도치 않게 입력되었으나 분석 목적에 부합되지 않는 경우 --> 제거의도하지 않은 현상이지만 분석에 포함되야 하는 경우 (ex) 부채비율이 300%인경
피쳐 스케일링은 서로 다른 변수의 값 범위를 일정 수준으로 맞추는 작업을 말한다. 대표적으로 표준화, 정규화가 있다.데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개
추후에 이 사이트를 참고하며 블로깅할 예정