# Preprocessing

61개의 포스트
post-thumbnail

노이즈처리

NOISE

2023년 11월 16일
·
0개의 댓글
·
post-thumbnail

결측치처리

Handling Missing Data

2023년 10월 15일
·
0개의 댓글
·
post-thumbnail

프로파일링

Data Profiling

2023년 10월 8일
·
0개의 댓글
·
post-thumbnail

데이터프레임 다루기(고급)

data preprocessing

2023년 9월 24일
·
0개의 댓글
·
post-thumbnail

데이터프레임 다루기(중급)

data preprocessing

2023년 9월 24일
·
0개의 댓글
·
post-thumbnail

데이터프레임 다루기(기초)

data preprocessing

2023년 9월 24일
·
0개의 댓글
·
post-thumbnail

Pandas

data preprocessing

2023년 9월 24일
·
0개의 댓글
·

reset_index()의 역할

원본데이터프레임에서 추출을 하면 index는 기본적으로 0부터 시작이 아니라 기존의 인덱스가 유지됨 이는 drop_duplicates()를 적용했을 때도 마찬가지이다. index로 인해 concat에서 문제가 발생할 수 있다.

2023년 8월 27일
·
0개의 댓글
·
post-thumbnail

Part 09. 머신러닝 _Chapter 03. Preprocessing

결과K-Fold 교차 검증은 데이터를 K개의 부분집합으로 나누고, K번의 실험을 수행하여 모델의 성능을 평가하는 방법taste train : 0.7294593034442948taste test : 0.7161538461538461보통 5폴드 씀아직은 연결되진 않은

2023년 8월 23일
·
0개의 댓글
·
post-thumbnail

Part 09. 머신러닝_Chapter 03. Preprocessing

encoder and scaler label_encoer 머신러닝은 숫자만 사용. 문자를 사용할 수 없으므로 문자로 되어있는 형태를 숫자로 라벨링하는 것. 그런데, 숫자를 문자로 바꾸는것도 가능함 min-max scaler ![](https://velog.velc

2023년 8월 22일
·
0개의 댓글
·
post-thumbnail

[AI web service project] MBTIgram: 데이터셋 전처리 및 EDA

💻 개발환경: Google Colab ✅ 사용 데이터셋 (MBTI) Myers-Briggs Personality Type Dataset [Link] https://www.kaggle.com/datasets/datasnaek/mbti-type mbti_1.csvMB

2023년 8월 18일
·
1개의 댓글
·
post-thumbnail

수업 36일차

벌써 금요일이야!

2023년 8월 17일
·
0개의 댓글
·

머신러닝 3일차 chapter3 (~15)

Encoder and Scaler label encoder 대상이 되는 문자로 된 데이터를 숫자-카테고리컬한 데이터로 변경 A컬럼이 알파벳에서 숫자로 바뀐것 확인 가능 fit과 transform 한번에 하는 것도 가능 역으로 다시 알파벳으로 바꾸는 invers

2023년 6월 26일
·
0개의 댓글
·

Day 23

AI Engineering Course_day23 (Data Analysis_day13)

2023년 6월 9일
·
0개의 댓글
·
post-thumbnail

[본론] 탐색적 데이터 분석

 \- filter(): 특정 컬럼의 특정 값 추출 - select(): 필요한 컬럼만 선택 : 일별 데이터를 추출 하고자 하는 날의 전 날 데이터를 정제 : 2)-(1)의 정제과정을 365번 반복하기 위함 \- head() 사용: 상위 5개만, 정렬 기준 국가명 기준

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

[본론] 분석용 데이터 구축

 : 계산 전 결측치를 확인하여 에러 방지 \- select(): 필요한 컬럼만 선택 - group_by(): 기술 통계 전 국가 기준으로 묶어줌 - summarise(): 사용하여 확진자 및 사망자 sum \- merge(): 두 개의 데이터 프레임을 병합 \- mu

2023년 5월 9일
·
0개의 댓글
·

generate partial polynomial features

입력되는 데이터 셋 모두에 cols=[] 컬럼이 유효해야 함.

2023년 4월 22일
·
0개의 댓글
·

[DataFrame] SettingWithCopyWarning: shallow copy vs deep copy

판다스에서 데이터프레임을 전처리하다보면 다음과 같은 경고 메시지가 종종 발생한다.SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.Try using .locro

2023년 4월 17일
·
0개의 댓글
·

다중공선성(multicollinearity) 판단을 위한 VIF 계산

VIF 값 해석 VIF = 1: 예측 변수와 모델의 다른 예측 변수 간에 다중공선성이 없음 1 < VIF < 5: 일반적으로 이 범위는 허용 가능한 범위로 간주 VIF ≥ 5: 중간에서 높은 정도의 다중공선성이 있음을 나타내며, 다중공선성 문제를 해결할 필요가 있습니다

2023년 4월 14일
·
0개의 댓글
·