# feature scaling
[ML] feature scaling
normalization (정규화) 대부분 [0,1] 범위에 맞추는 방식 MinMaxScaler min-max scaling (최소-최대 스케일 변환) 샘플 $x^i$ 에 대해 아래와 같이 scaling 하여 계산 $x^{(i)}{norm}=\frac { x^{i} - x{min} } {x{max} - x{min}}$ dataset 준비 scikit-learn MinMaxScaler 를 이용한 구현 standardization (표준화) 각 feature 의 평균을 0, 표준편차(standard deviation) 를 1로 -> 정규 분포의 특성 이상치 (outlier) 에 덜 민감한 편 위 정규화의 min-max scaling 은 최소, 최대치를 기준으로 scaling 하므로, outlier 로 인해 샘플 구간이 좁아지는 문제가 발생 수식으로는 아래와 같다
[머신러닝] 피처 스케일링 (Feature Scaling) - 표준화 (standardization) , 정규화 (normalization)
✔ Feature Scaling 이란? 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 표준화 , 정규화 방법 존재 2차원 이상 데이터만 가능 ✔ 왜 Feature Scaling 이 필요할까? 데이터를 평가하는 기준을 설정하고, 그 기준 내에서 데이터를 평가하여 비교가 편하게 하기 위함이다. 예를 들어, 온도, 습도, 날씨 등은 $\degree$C, $\degree$F 등으로 나타낸다. 이는 단위도 다르고 범위도 달라서 직접적인 비교가 불가능하다. 나의 영어 성적이 95점 (100점 만점), 친구의 성적이 500점 (990점 만점) 일 때, 내가 공부를 더 잘 한다고 말할 수 없는 것과 유사하다. 따라서, 각 특성들의 단위를 무시하고, 단순 값으로 비교할 수 있게 만들어 주어야 한다. 이것이 우리가 Feature Scaling (표준화/정규화)를 하는 이유이다. 또 하나의 중요한 이유는, scal

[sklearn] 데이터 전처리 - Label Encoding/One-Hot Encoding/Feature Scaling
데이터 전처리 결측치 처리 NaN, Null값은 허용되지 않는다. 따라서 이러한 결손값은 고정된 다른 값으로 변환해야 한다. 1. 데이터 인코딩 사이킷런의 머신러닝 알고리즘은 문자열 값을 허용하지 않는다. 따라서 문자열 값을 인코딩해서 숫자형으로 변환하는 과정을 거쳐야한다. 카테고리형 피처: 코드 값으로 표현 텍스트형 피처: 피처 벡터화(feature vectorization)등의 기법으로 벡터화 하거나 불필요한 피처라고 판단되면 삭제 1-1. 레이블 인코딩 사이킷런의 레이블 인코딩(Label Encoding) LabelEncoder클래스로 구현한다. LabelEncoder를 객체로 생성한 후 fit()과 transform()을 호출해 인코딩을 수행한다. > TV는 0, 냉장고는 1, 전자레인지는 4, 컴퓨터는 5, 선풍기는 3, 믹서는 2로 변환됐다. > 문자

[머신러닝] Data Scaling 데이터 스케일링
\- (주절주절1) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... - 2022.06.30 오전 \- (주절주절2)점심 먹고 잠도 깰겸... 미루지 말고 하자... - 2022.06.30 오후 스케일링이란? 데이터 전처리 과정 중 하나(data scaling/feature scaling) ex) x는 0부터 1사이의 값을 갖고, y는 10부터 100사이의 값을 갖는다고 가정하면, x의 특성은 y를 예측하는데 큰 영향을 주지 않을 수 있음 때문에 특성별로 데이터의 스케일이 다르다면, ML이 잘 동작하지 않을 수 있음 따라서 데이터 스케일링 작업을 통해 모든 특성의 범위 또는 분포를 같게 만들어줘야 함 주로 사용되는 스케일링 개념 1) Standardizat
Feature Engineering_2
ML101601featureengineering.ipynb Feature Scaling StandardScaler : 표준화, 주로 신경망 모델 MinMaxScaler : 0~1 RobustScaler : oulier에 강함 PowerTransformer : 분산 안정화, 왜도 최소화, box-cox와 yeo-johnson변환 지원 All about Feature Scaling Feature Selection Model Based feature Selection Univarate(단변량) Feature Selection -통계 모델 기반 y값과 하나의 feature간의 통계적 유의미를 분석 주로 선형 모델에서 유용 **Recursive feature el

Feature Scaling in Scikit Learn
Data Preprocessing is not just about encoding the data and converting the data type within the dataset. It also requires arduous steps to adjust the widening range of different independent variables hence enabling to exercise similar extent of impact to the model. Imagine two different features height and weight. It will simply be "nonsensical" to extract meaningful outcome by comparing features with diifferent units (ex - cm vs. kg , ft vs. lb). A process of normalizing the range of variabl