2021.10.26 TIL

서승원·2021년 10월 26일
0

TIL

목록 보기
7/68

2021.10.26 TIL

C2. EDA와 전처리

EXCEL, CSV, JSON 파일의데이터를 정리하고 원하는 기준에 맞게 전처리한다.

값의 요약

CSV 파일을 불러와 원하는 변수의 최대 ,최소 값을 알아낼 수 있다.

여러 변수를 한번에 비교하고, 평균값을 낼 수 있다.
이외 기타 method
.unique() : 중복한 원소를 제거한다.
.nunique() : 고유한 원소의 개수를 알려준다.
.value.counts( normalize = True ): 각 고유한 원소의 등장 빈도를 계산한다. 비율로 계산한다
.round(n) : n 자리에서 반올림한다.

결측치
결측치를 처리하는 방법
.isna/isnull : 결측치를 찾아내 표시한다.
.inotna/notnull : 결측치가 아닌 관측치를 표시한다.

결측치 제거

결측치가 있는 DataFrame.

결측치가 있는 row 전체를 삭제한 방법

결측치를 특정한 값으로 채운다.

예제

꽃잎의 정보에 대한 CSV 파일을 불러온다.

ISNA 로 결측치를 True로 표시한 후 True 값이 1인 것을 이용해 총합으로 갯수를 구한다.

분류와 정렬

차량data를 담은 CSV를 불러와 년도 , 가격 별로 각각 내림차순, 오름차순으로 정렬했다.

DataFrame에 새로운 변수를 추가해 알고싶은 변수 ( 주행거리에 따른 가격) 에 따라 정리한다.

분류,정렬 예제
Q. 차량 생산년도 year에 따라 연도별 차량 대수를 파악하라.

audi_year_cnt 변수에 년도별 차량 대수를 할당하고, 두 개의 column 이름을 지정한다.
년도순 내림차순으로 정렬하여 년도별로 보기 편하게 만든다.
Q.차량 거래 가격 대비 평균 세금의 비율은 얼마인가 ?

새로운 변수를 추가해 정리한 후, 평균을 구한다.

그룹 연산

개인의 신상을 정리한 CSV 파일을 불러온다.

groupby method 를 이용해 그룹화할 기준이 되는 변수, 알고싶은 변수를 설정해 "job"에 따른 그룹별 "balance"의 평균을 구했다.


"job"으로 첫번째 그룹화를 하고, "marital" 으로 그룹화를 한번 더 해서 balance의 평균값을 구했다.

날짜,시간에 대한 정보

datetime과 casual에 대한 정보를 불러온다.

문자 형태인 데이터를 datetime 형식으로 변경한다.

bike_sub 를 dataframe화 한후, year/month/day/wday 변수를 추가하고 , datetime 형식이 된 datetime 변수 정보에서 각 변수들을 뽑아낸다.

profile
2년차 백엔드 개발자, crimy

0개의 댓글