SK Networks Family AI Camp 4기
4주차 24.08.26 - 24.08.30
SK Networks Family AI Camp 4기에서 4주차 배운 것을 기록합니다.
240836_day15
Numpy
240827_day16
Pandas
240828_day17
Visualization
240829_day18
Scaling : data의 scale을 이치시키는 작업
feature의 최솟값 0, 최댓값 1로 스케일
sklearn의 MinMaxScaler 사용
# fit을 사용하지 않은 scaler를 사용할 수 없다
# 데이터를 표준화시키는 방법을 학습하는 것과 동시에 주어진 데이터 표준화
min_max_scaler = MinMaxScaler()
min_max_scaler = min_max_scaler.fit_transform()
feature의 평균 0, 분산 1로 스케일 (즉, 데이터의 분포를 표준정규분포로 생성)
sklearn의 StandardScaler 사용
standard_scaler = StandardScaler()
standard_scaler = = standard_scaler.fit_transform()
평균과 분산 대신 중간값과 사분위값을 사용하여 스케일링
중간값: 데이터 정렬 후 중간에 있는 값
사분위값: 데이터 정렬 후 1/4, 3/4에 위치한 값
이상치에 대한 영향력 감소
(극단치의 영향을 받지 않도록 µ를 빼지 않고 median을 뺀다)
sklearn의 RobustScaler 사용
robust_scaler = RobustScaler()
robust_scaler = robust_scaler.fit_transforma()
240830_day19
Dimensionality_reduction
Dimensionality Reduction
feature가 많아지면 feature들 간의 관계 파악이 어려워 차원 축소를 통하여 이를 해결
차원의 저주: 데이터 학습을 위해 차원이 증가하면서 학습 데이터 수가 차원의 수보다 적어져 성능 저하
LDA(Linear Discriminant Analysis)

: 입력된 데이터를 저차원 공간으로 projection하여 차원 축소(지도학습에서 사용)
PCA(Principal Component Analysis)
: 데이터 분산을 최대화할 수 있는 eigen vector로 projection
t-SNE
: t-distributed Stochastic Neighbor Embedding)
1. 데이터 포인트 간의 유사도 계산
2. 저차원에서 유사도 계산
3. 저차원과 고차원의 유사도 분포 근사

UMAP
: 데이터의 위상 관계를 이용하여 저차원으로 매핑