# Data Preprocessing
[데이터 전처리] 데이터 정렬과 인덱싱
sort_values()Series 데이터를 정렬할 때 쓰이며, 주요 인자는 다음과 같다.ascending : True(오름차순), False(내림차순)key : 정렬 기준(보통 lambda() 함수 사용)na_position : 결측치의 배치 위치(first, las
[데이터 전처리] 데이터 집계
pivot_table()과 groupby()를 통해 데이터를 집계해보자.피벗 테이블은 데이터에 조건을 줘서 변수들의 통게량을 요약하고 보기 위함이다.입력 인자들은 다음과 같다.data: 해당 데이터index: 행에 들어갈 조건columns: 열에 들어갈 조건values
[데이터 전처리] 데이터 합치기
하나 이상의 데이터를 합쳐보자.두 개의 데이터를 합칠 때, 중복되어 key가 되는 컬럼이 있을 때 사용한다.기본적으로 python은 키가 될 수 있는 컬럼을 자동으로 찾아서 합치며, 옆으로 이어 붙일 때 자주 사용된다.on, left_on, right_on자동으로 하게
[데이터 전처리] 데이터 불러오기
opne(경로+파일 이름)딥러닝에서 coco.json파일을 통해 데이터의 '경로/파일 이름'으로 지정하거나 수정할 때 쓰이며, 텍스트 파일 안의 내용을 읽거나 쓰기 위해 자주 사용된다.열려는 파일의 경로와 파일 이름을 입력하여 읽어 온다.r'path'윈도우에서는 경로

같이 공부하는 머신러닝+딥러닝2
데이터 다루기 02-1 훈련 세트와 테스트 세트 지도 학습과 비지도 학습 지도학습 알고리즘은 훈련하기 위해 데이터와 정답이 필요하다 비지도 학습은 입력 데이터만 주어지고 데이터로부터 스스로 특성을 찾아내는 학습 방법이다. 훈련 세트와 테스트 세트 훈련세트는 머신러닝
[이미지 처리] opencv로 1024x1024 크기 이미지를 256x256 여러 장으로 crop하고, 불필요한 부분은 버리기
요즘 회사에서 위성 사진을 많이 다루고 있는데, 위성 사진들의 특징은 일반적인 사진들보다 resolution이 떨어지고, 픽셀 크기는 크다는 것이다. 예를 들어, Remote Semantic Segmentation 데이터셋인 'LoveDA'같은 경우에는, 1024x10

SAP에서 다운로드 받은 파일: xls 에서 xlsx 로 자동 변환하기
background SAP을 사용한다면 가장 많이 마주하는 파일 형식은 아마 .xls 엑셀 형식일 것이다. xlsx 형식을 주로 쓰기에 매번 파일 포맷 (xls -> xlsx) 을 바꾸는게 단순하지만 너무 귀찮은 작업이었다. 특히 적은 양의 파일이면 처리할 수 있겠

특정 단어 포함한 리스트/인덱스 추출하기
background 엑셀 데이터를 전처리 하는 과정에서 특정 열을 삭제해야 하는 케이스인데, 문제는 열의 인덱스로 매번 찾을 수 없다는 점이 나의 struggle point 였다. 삭제해야 하는 열의 순서가 계속 뒤바뀌기기에, 열의 순서가 아닌 열의 이름을 기준점
[혼자 공부하는 머신러닝+딥러닝] - CH.2-2 Data Preprocessing
train_test_split() 함수 사용x축과 y축의 범위가 서로 달랐기에 기준이 안맞았던것y축이 범위가 훨씬 넓기에 y축으로 조금만 멀어져도 거리가 큰값으로 계산됨기준 맞춰주기브로드캐스팅: 크기가 다른 넘파이 배열에서 자동으로 사칙 연산을 모든 행이나 열로 확장하

[데이터 전처리] One-Hot Encodig 원핫인코딩
sckit-learn의 머신러닝 알고리즘은 입력값으로 문자열을 받는 걸 허락하지 않는다.이를 위한 전처리 방법 중 하나인 원핫 인코딩.고유값에 해당하는 컬럼에만 1, 나머지 컬럼에는 00으로 이루어진 벡터에 단 한개의 1의 값으로 해당 데이터의 값을 구별딥러닝, 데이터

[머신러닝] Data Scaling 데이터 스케일링
(주절주절) 열심히 정리하다가 ctrl+s를 눌렀어야 했는데 w를 눌렀나... 그러니 창이 꺼졌다. 임시저장도 안되어 있고... 어제는 서버에서 폴더명 바꾸려고 뒤에 ~ 붙이고 엔터치니 폴더가 숨겨져서 다른 분이 도와주셨다... 무튼 나중에 나중에... -2022.06

R-Data Preprocessing
오늘은 필요성을 느껴 입문하게된 R언어로 Data preprocessing을 블로깅 하려 한다. <span style='background-color: =R언어를 배우게 되면서 R studio도 같이 설치를 해보았는데 ui자체가 다소 난해하다는 느낌이 들지만 이또
Feature Engineering
Feature = Column or a Dimension of a DataFrameFeature Engineering = Combining/Restructuring the existing datasets to create a new featureScreen Shot 2
4/11 개발일지
data preprocessing (데이터 전처리)DATA를 분석하기 용이하게 고치는 모든 작업결측치:중요 데이터 빠짐데이터 오류 : 잘못된 데이터 입력이상치 : 일반적 범위 벗어남데이터 형식 : 분석하기 적합x범주형 데이터 : 다른 형태로 되어있다.scaling(변수
[AIB]Note113~4 Data Manipulation, Basic Derivative
ㅁData는 무슨 뜻인지 알고 있을거고, Manipulation은 조종하다는 뜻으로 이해하면 좋다. 데이터를 분석하기 좋도록 조종, 즉 조작, 수정 등으로 이해하면 좋을 듯하다.내가 원하는 데이터들이 우리가 보는 엑셀 파일 등에 하나로 다 들어가 있을 수가 없다. 왜냐
[AIB]Note113~4 Data Manipulation, Basic Derivative
Data Manipulation, Basic Derivative