# Preprocessing

36개의 포스트

[ML] 데이터 전처리(2) (feat. LabelEncoder, OneHotEncoder)

Categorical Encoding 이전 게시물에서 결측값 처리까지 해 보았습니다. 이제는 무엇을 해야 할까요? 지금 데이터셋 그대로 머신러닝, 딥러닝 모델의 input으로 넣을 수 없는데, 왜냐하면 문자열 상태 그대로 모델에 넣을 수 없기 때문입니다. 따라서, 이

2일 전
·
0개의 댓글
·
post-thumbnail

[ML] 데이터 전처리(1) (feat. pandas, drop, imputation)

여기에서 train_data는 1460 x 81 매트릭스이고,test_data는 1459 x 80 크기의 매트릭스이다.(test_data의 column이 하나 더 적은 이유는 test_data에는 끝에 라벨이 없기 때문!)실행결과결측값이 있다면 해당 결측값을 포함한 행

3일 전
·
0개의 댓글
·
post-thumbnail

spatial filetering(공간 필터링) - preprocessing(전처리)

특정한 OXO의 필터를 처음부터 끝 픽셀까지 적용 --> 어떤 필터를 적용하느냐에 따라 다양한 결과 생성 1\. 기존의 것을 이용해 아예 새로운 mat을 만드는 것이므로 바뀐 값의 영향을 받지x주변의 평균 값으로 대체장점noise 줄여줌단점이미지 흐릿해짐업로드중..계수

2022년 9월 14일
·
0개의 댓글
·
post-thumbnail

[데이터 전처리] One-Hot Encodig 원핫인코딩

sckit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 걸 허락하지 않는다.이를 위한 전처리 방법 중 하나인 원핫 인코딩.고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 00으로 이루어진 벡터에 단 한개의 1의 값으로 해당 데이터의 값을 구별딥러닝, 데이터

2022년 7월 6일
·
0개의 댓글
·
post-thumbnail

[머신러닝] Data Scaling 데이터 스케일링

(주절주절) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... -2022.06

2022년 6월 30일
·
0개의 댓글
·
post-thumbnail

Data Preprocessing

현실 데이터는 분석 목적에 맞게 정리되어 있지 않아, 데이터 분석 기법을 그대로 적용하기 어려움 예시 노이즈, 결측치, 파편화 파일명, 폴더 등이 정리되어 있지 않거나, 시간 정렬이 되어 있지 않는 경우, 불필요한 값이 너무 많은 등 01. 데이터 전처리는 왜 중요할

2022년 6월 20일
·
0개의 댓글
·

pandas str replace tool

pandas 툴을 사용해 replace('\_\_', ',') 작업을 진행했는데 데이터가 변환되지 않았다.시도1\. type문제인가 싶어서 다시 str type으로 바꾸고 진행 (실패)df.astype(str).replace('\_\_', ',')2\. 바꾸려는 문자열

2022년 5월 30일
·
0개의 댓글
·

EDA (Exploratory Data Analysis)

EDA 정리, preprocessing

2022년 4월 15일
·
0개의 댓글
·
post-thumbnail

학습 데이터셋 전처리

학습 데이터 전처리란 무엇을 말하는걸까요? 인공지능을 학습시키기 위해서는 인공지능이 이해할 수 있는 형태로 데이터를 가공해야 합니다. 조금이라도 규격에 맞지 않으면 인공지능의 정확도가 떨어질 수 있으므로 세심한 주의가 필요한 과정이지요.

2022년 3월 10일
·
0개의 댓글
·
post-thumbnail

결측치(Missing values, Nulls) 처리에 대해서 (Imputation): SimpleImputer, IterativeImputer, MICE ..

이번에 카카오 테크 인턴 서합을 하면서 사전과제를 받았다.지금 진행중인데.. 결측치가 굉~장히 많았다.칼럼이나 갯수를 보아하니 의도적으로 정해진 비율만큼 제거하신 모양인(,,)데이터 갯수가 워낙 많아서 그냥 결측치를 떨궈도 70퍼센트정도는 살아있다고 생각하고 결측치를

2022년 1월 10일
·
0개의 댓글
·

Histogram Equalization

각 픽셀의 밝기나 색깔이 얼마나 강한지 히스토그램으로 분석해서 너무 강한 픽셀은 0-255 사이의 값으로 평준화 해주는 거다. gray scale 이미지에서는 어느 정도로 밝은지, rgb이미지에서는 어떤 색이 강한지 알아볼 때도 쓸 수 있을 것 같다.

2021년 12월 29일
·
0개의 댓글
·
post-thumbnail

np.log1p()를 하는 이유

np.log1p()를 하는 이유

2021년 12월 19일
·
0개의 댓글
·
post-thumbnail

[Tensorflow] 오디오 데이터 전처리하기1(librosa, fft, log- melspectrogram)

Reference https://ichi.pro/ko/tensorflowleul-sayonghayeo-gpueseo-odioleul-swibge-cheolihaneun-bangbeob-50154769354502 https://towardsdatascience.com

2021년 12월 12일
·
0개의 댓글
·
post-thumbnail

Pandas Series.str.extract()

Pandas Series.str.extract()에 대해 알아보자~

2021년 11월 30일
·
0개의 댓글
·

이미지 전처리

resize 228x228로 사이즈 조정.ToTensor()로 이미지 ndarray를 tensor 형태로 변환.normalize(0.485, 0.456, 0.406, 0.229, 0.224, 0.225)이미지 전처리 1)이미지 픽셀의 평균, 표준편차를 계산해서 정규화.

2021년 10월 28일
·
0개의 댓글
·
post-thumbnail

Medical Image Registration - Non-rigid registration via deformable model

참고: https://www.edwith.org/medical-20200327/joinLectures/30437 (컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 edwith)

2021년 9월 14일
·
0개의 댓글
·
post-thumbnail

Medical Image Registration - Non-rigid registration via ICP

참고: https://www.edwith.org/medical-20200327/joinLectures/30437 (컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 edwith)

2021년 8월 31일
·
0개의 댓글
·
post-thumbnail

Medical Image Registration - Registration using main axis

참고: https://www.edwith.org/medical-20200327/joinLectures/30437 (컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 edwith)

2021년 8월 31일
·
0개의 댓글
·
post-thumbnail

Medical Image Registration - Similarity measure

참고: https://www.edwith.org/medical-20200327/joinLectures/30437 (컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 edwith)

2021년 8월 31일
·
0개의 댓글
·
post-thumbnail

Medical Image Segmentation - Segmentation using graph model

참고: https://www.edwith.org/medical-20200327/joinLectures/30437 (컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 edwith)

2021년 8월 24일
·
0개의 댓글
·