Data Handling

김혜민·2024년 2월 20일

Python

목록 보기
1/11

1. Data 형태 확인

1) pandas 연결

import pandas as pd

2) Data 형태 확인

df.shape ->, 열 몇개인지 확인

3) Data type 확인

df.type -> data가 어떤 형태인지 확인

*int64 : 정수형 float : 실수형 object : 문자열, 복합형

4) Null값 확인

-> Data 다루기 전 반드시 Null 값을 확인해야함!!

df.isnull().sum()

2. Unique한 Value 별 카운팅

len(df['col'].unique()) 또는 df['col'].unique

3. Data의 특정값을 바꾸기

import numpy as np
df.replace(old_col, new_col)
ex) df.replace(col, np.NaN) <-특정값을 null값으로 치환! 

4. Null값을 이전 값으로 채워넣기

import numpy as np
df.fillna(method='ffill')
*ffill : 앞 Data로 채워넣기 bfill : 뒤 Data로 채워넣기 

5. DataFrame 특정 col만 가져오기

df= df[['col1','col2']]

6. 조건에 맞는 Col 가져오기

df [(필요한 조건1) & (필요한 조건2)] 
  • 조건을 괄호로 꼭 묶어주기!! &-> and |->or

7. 오름차순, 내림차순 정렬

df['col'].sort_values(ascending=False)
  • ascending=False(내림차순) / ascending=True(오름차순)
  • False를 0, True를 1로 표현하기도 함!

8. 특정값이 포함된 Data 찾기

df[df['col']. astype[str].str.contains('text')]
  • astype[str] : 문자열이 아닐수도 있으니 먼저 문자 형태로 바꾼다!

9. 특정 조건 만족하는 값 변경하기

np. where[df['col'] <= 5,1,0] 
-> 특정 'col'5 이하일 경우 1, 그렇지 않을 경우에는 0으로 바꿔줘라!
-> if where 대신 사용하기도 함

10. groupby 활용 카운팅

df['특정열'].groupby(df['그룹화 하고 싶은 col']).value_counts()
  • value_counts() : 빈도수별로 나열

11. pivot table 활용 데이터

df_job = pd.pivot_table(df_job,          # 피벗할 데이터프레임
                     index = 'index',    # 행 위치에 들어갈 열
                     columns = 'col',    # 열 위치에 들어갈 열
                     values = 'value')   # 데이터로 사용할 열

12. 중복 데이터 처리

df.drop_duplicates(['col'], keep = 'first', inplace=True)
  • inplace=True : 본래 데이터에 반영할 것인가?

13. 문자열 데이터 앞 공백 제거

df['col'].str.lstrip()

14. list 중복 없애기

all_list = list(df['start']) + list(df['end'])
unique_list = set(all_list)

15. int(무한대) 데이터 null 처리

-> fillna 가 먹히지 않을때!

df['col'].replace([np.inf, -np.inf], np.nan)
profile
성장하는 주니어 데이터 분석가입니다!

0개의 댓글