
데이터에서 부정확한 레코드를 감지 및 수정(or 제거)하는 과정(ex. 이상치를 감지하여 제거, 결측치를 찾아 보간)데이터의 유효성, 정확도, 완전성, 일관성을 유지하고 신뢰성을 향상시키는 과정데이터를 주어진 양식에 맞게 변경/수정하는 과정(ex. 딥러닝 학습을 위해

차원이 증가하면서(=feature 개수) 문제 공간이 기하급수적으로 커지는 현상용량이 커져서 많은 메모리 필요관측치 보다 feature 수 많아짐 -> 모델 성능 저하데이터 사이의 거리가 멀어지고 빈 공간 생김 -> sparsity 문제 발생차원 축소는 고차원의 데이터

PCA 차원 축소의 한계점 \[Big Data Analytics 선형 분석 방식으로 값을 투영하기에, 군집화 되어 있거나 비선형 데이터에 올바른 동작 어려움: T-distributed Stochastic Neighbor Embedding

데이터의 특성(feature) 중에서 가장 중요하게 생각되는 변수를 선택하는 것목표 : 모델 훈련에 있어 가장 유용한 특성을 선택하는 것(모델의 정확도 향상을 위해 가장 좋은 성능을 보여줄 변수들의 부분집합을 찾아내는 과정)

1. Decision Tree 개요 지도 학습 알고리즘 중 하나로 데이터의 특징과 레이블 간의 관계를 트리 구조로 표현하는 모델 (ex. 스무고개와 비슷한 방식으로 동작) Decision Tree의 목적 예측 및 분류 : 주어진 입력 값에 대해 예측값을 생성하고

여러 개의 예측 모델을 조합하여, 강력하고 안정적인 예측 모델을 생성하는 기법(각기 다른 모델을 사용하기도, 동일 모델을 사용하기도 함)사진 출처: 편향과 분산을 줄이고 일반화 성능을 향상VotingBaggingBoosting예측 성능 향상 : 다양한 모델들의 예측 결

1\. Voting Classifier 실습

Accuracy 전체 예측 중에서 모델이 정확하게 맞춘 비율2\. 다중 클래스 분류

신용카드의 사용은 높은 편의성을 제공하지만, 카드 분식 혹은 도난으로 비정상적인 거래 발생 가능(이것에 대한 해결책 필요)경보 시스템을 통해 알림 주는 것도 좋지만, 다양한 feature를 활용하여 복합적인 상황에서 이상 거래 탐지를 할 수 있는 모델 만들기이상 거래

df.info()import seaborn as snsnumeric_df = df.select_dtypes(include=np.number)corr = numeric_df.corr()plt.figure(figsize=(15, 15))sns.heatmap(corr, an

수업시간에 한 최종 모델상관관계 분석 안 한 것상관관계 분석한 것추가적으로 한 것후진 소거법 사용