# scaling

머신러닝 - House prices (Feature Engineering)
House Price > https://www.kaggle.com/c/house-prices-advanced-regression-techniques 라이브러리 & 데이터 로드 EDA info() describe() histplot 수치 데이터의 분포 확인, 첨도를 통해 너무 뾰족하지 않은지 -> 한 쪽에 데이터가 몰려있는지 확인 왜도 -> 너무 한쪽에 치우쳐져 있지 않은지 확인 정규분포 형태 확인 막대가 떨어져 있다면 수치데이터가 아니라 범주형 데이터가 아닌지 확인 Feat

[머신러닝] Data Scaling 데이터 스케일링
\- (주절주절1) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... - 2022.06.30 오전 \- (주절주절2)점심 먹고 잠도 깰겸... 미루지 말고 하자... - 2022.06.30 오후 스케일링이란? 데이터 전처리 과정 중 하나(data scaling/feature scaling) ex) x는 0부터 1사이의 값을 갖고, y는 10부터 100사이의 값을 갖는다고 가정하면, x의 특성은 y를 예측하는데 큰 영향을 주지 않을 수 있음 때문에 특성별로 데이터의 스케일이 다르다면, ML이 잘 동작하지 않을 수 있음 따라서 데이터 스케일링 작업을 통해 모든 특성의 범위 또는 분포를 같게 만들어줘야 함 주로 사용되는 스케일링 개념 1) Standardizat
Preprocessing - Data Scaling
Scaling 1. Definition numerical data들은 서로 scale 차이가 너무 많이 나면 모델의 학습이 원활하게 되지 않는 경우가 있다. 예를 들어 KNN의 경우 Eucliean distance를 사용할 때 $$ \sqrt{(10-9)^2 + (100000-29900)^2 \cdots} $$ 이런 식으로 되어 버리면 두번째 column의 영향력이 너무 강해져서 첫번째 column은 무시될 수 있다. 그러므로 column별로 scaling을 해줘야 한다. 대표적으로 Standardization(표준화)과 Normalization(정규화)이 있다. 보통 categorical variables에는 사용하지 않는다. 2. Techniques 1. StandardScaler() feature들의 mean을 0, variance를 1로 scailing하는 방법이다. outlier에 매우 민감하다. regression보다 cl

Multi GPU Training Scaling Strategy
Introduction Multi GPU 를 활용하여 딥러닝 모델의 분산 학습을 수행하는 경우, Scaling 과 관련된 용어가 보일 때가 있습니다. Weak Scaling 과 Strong Scaling 이 그것인데, 두 가지 개념이 헷갈리는 경우가 있어 정리해 둡니다. 두 방법은 Single GPU 에서의 실험과 비교하는 상황에서, batchsize 를 어떻게 조정할 것인가에 대한 방법입니다. Weak Scaling 1개의 worker 가 가지는 batchsize 를 고정하는 것 worker 의 개수를 증가시켰을 때, 전체 분산 처리 속도를 보게 된다. 1-GPU : 128batch 2-GPU : 128batch x 2 = 256batch 4-GPU : 128batch x 4 = 512batch 8-GPU : 128batch x 8 = 1024batch ... 그러므로 GPU 의 개수가 많아질 수록, 전체 batchsize 가 커지게 되고 이에 따라서 GPU 의