Data Handling

김혜민·2024년 2월 20일

Python

목록 보기

1/11

1. Data 형태 확인

1) pandas 연결

import pandas as pd

2) Data 형태 확인

df.shape -> 행, 열 몇개인지 확인

3) Data type 확인

df.type -> data가 어떤 형태인지 확인

*int64 : 정수형 float : 실수형 object : 문자열, 복합형

4) Null값 확인

-> Data 다루기 전 반드시 Null 값을 확인해야함!!

df.isnull().sum()

2. Unique한 Value 별 카운팅

len(df['col'].unique()) 또는 df['col'].unique

3. Data의 특정값을 바꾸기

import numpy as np
df.replace(old_col, new_col)
ex) df.replace(col, np.NaN) <-특정값을 null값으로 치환!

4. Null값을 이전 값으로 채워넣기

import numpy as np
df.fillna(method='ffill')
*ffill : 앞 Data로 채워넣기 bfill : 뒤 Data로 채워넣기

5. DataFrame 특정 col만 가져오기

df= df[['col1','col2']]

6. 조건에 맞는 Col 가져오기

df [(필요한 조건1) & (필요한 조건2)]

조건을 괄호로 꼭 묶어주기!! &-> and |->or

7. 오름차순, 내림차순 정렬

df['col'].sort_values(ascending=False)

ascending=False(내림차순) / ascending=True(오름차순)
False를 0, True를 1로 표현하기도 함!

8. 특정값이 포함된 Data 찾기

df[df['col']. astype[str].str.contains('text')]

astype[str] : 문자열이 아닐수도 있으니 먼저 문자 형태로 바꾼다!

9. 특정 조건 만족하는 값 변경하기

np. where[df['col'] <= 5,1,0] 
-> 특정 'col'이 5 이하일 경우 1, 그렇지 않을 경우에는 0으로 바꿔줘라!
-> if where 대신 사용하기도 함

10. groupby 활용 카운팅

df['특정열'].groupby(df['그룹화 하고 싶은 col']).value_counts()

value_counts() : 빈도수별로 나열

11. pivot table 활용 데이터

df_job = pd.pivot_table(df_job,          # 피벗할 데이터프레임
                     index = 'index',    # 행 위치에 들어갈 열
                     columns = 'col',    # 열 위치에 들어갈 열
                     values = 'value')   # 데이터로 사용할 열

12. 중복 데이터 처리

df.drop_duplicates(['col'], keep = 'first', inplace=True)

inplace=True : 본래 데이터에 반영할 것인가?

13. 문자열 데이터 앞 공백 제거

df['col'].str.lstrip()

14. list 중복 없애기

all_list = list(df['start']) + list(df['end'])
unique_list = set(all_list)

15. int(무한대) 데이터 null 처리

-> fillna 가 먹히지 않을때!

df['col'].replace([np.inf, -np.inf], np.nan)

김혜민

성장하는 주니어 데이터 분석가입니다!

다음 포스트

Data Handling

Python

1. Data 형태 확인

1) pandas 연결

2) Data 형태 확인

3) Data type 확인

4) Null값 확인

2. Unique한 Value 별 카운팅

3. Data의 특정값을 바꾸기

4. Null값을 이전 값으로 채워넣기

5. DataFrame 특정 col만 가져오기

6. 조건에 맞는 Col 가져오기

7. 오름차순, 내림차순 정렬

8. 특정값이 포함된 Data 찾기

9. 특정 조건 만족하는 값 변경하기

10. groupby 활용 카운팅

11. pivot table 활용 데이터

12. 중복 데이터 처리

13. 문자열 데이터 앞 공백 제거

14. list 중복 없애기

15. int(무한대) 데이터 null 처리

Colab - Python

0개의 댓글