Pandas (4)

tino-kim·2022년 1월 3일
0
post-thumbnail

🥴 Pandas (4)

📌 DataFrame 원하는 값 색인하기

📌 Column 명으로 가져오기

칼럼명 이용해서 원하는 칼럼의 Series를 가져올 수 있다.

df["column 명"]
df['column 명']
df[:3]을 이용하면 행만 결정해서 DataFrame을 가져올 수 있다.
# 위와 같은 방식으로 적으면 행을 결정해주는 것이다.

📌 loc 이용하기

이름을 이용해서 원하는 값을 찾을 수 있다.
주의할 점은 시작과 끝이 모두 포함된다. 지금까지 배운 것의 예외인 부분이다.

df.loc[이름:이름, 이름:이름]
df.loc[이름:이름, [이름,이름]]
# 이런식으로 적어주면서 원하는 값 찾아내기

⭐ loc이 많이 쓰이는 것 같다. Boolean Indexing과 isin에도 쓰이고, 결측치를 제거하는 경우에도 사용된다.

📌 iloc 이용하기

인덱스를 이용해서 원하는 값을 찾을 수 있다.
지금까지 배웠던 인덱스를 생각하면 된다.

df.iloc[인덱스:인덱스, 인덱스:인덱스]
df.iloc[인덱스:인덱스, [인덱스,인덱스]]
# 이런식으로 적어주면서 원하는 값 찾아내기

📌 Boolean Indexing 이용하기

Boolean Index 로 받은 Index 를 활용해서 True인 값만 색인해 낼 수 있다. 즉, 조건에 맞는 DataFrame만 불러오는 것이다.

  • 조건에 맞는 데이터만 불러오기.
df[df['column']>조건]
# 조건에 맞는 df의 데이터만 가져온다
  • 조건에 맞는 데이터만 불러오기 + 특정 칼럼 선택하기.
    ⭐ sol) loc 이용하기.
df.loc[df['column']>조건, '특정 column']
# 1개의 칼럼 가져오기
df.loc[df['column']>조건, ['특정 column1','특정 column2']]
# fancy indexing을 통해서 2개 이상의 칼럼 가져오기
df.loc[df['column']>조건, '특정 column1':'특정 column6']
# 어디에서 어디까지의 특정 칼럼 가져오기

📌 isin 이용하기

내가 조건을 걸고자 하는 값내가 정의한 list에 있을 때만 색인하려는 경우에 사용한다.

변수 = [내가 원하는 값을 리스트로 나타내기]
df['column명'].isin(변수)
# 이 값을 DataFrame의 행을 색인하는데에 사용하기
df.loc[df['column명'].isin(변수)]
# 여기서 특정 칼럼을 색인하고 싶으면, 원하는 칼럼명 지정하기
df.loc[df['column명'].isin(변수), '원하는 칼럼명']
df.loc[df['column명'].isin(변수), ['원하는 칼럼명','원하는 칼럼명']]
df.loc[df['column명'].isin(변수), '원하는 칼럼명':'원하는 칼럼명']

📌 DataFrame 결측치 값 색인하기

  1. info( )를 이용해서 어디에서 빠진 데이터가 있는지 알 수 있다.
  2. 결측치 값을 알아내는 방법
df.isna()
df.isnull()
df['칼럼명'].isna()
df['칼럼명'].isnull()
  1. ⭐ 결측치 값을 제외한 모든 데이터를 가져오는 방법
df.notnull()
df['칼럼명'].notnull()
df.loc[df['칼럼명'].notnull()]
df['칼럼명'].loc[df['칼럼명'].notnull()]
df['칼럼명'].loc[df['칼럼명'].notnull(), '칼럼명']

😀 마무리...

DataFrame의 값을 색인하는 방법은 잘 알아두어야 하고, 특히 loc을 많이 쓰는거 같으니까 염두해두자. 자주 이용하고, 까먹지 않기~! 그리고 꼭 누락되는 값이 있을 수도 있기 때문에 꼭 그런 것들은 제거해준 뒤에 데이터 분석을 해주기.

profile
알고리즘과 웹 개발과 데이터 과학을 공부하는 대학생

0개의 댓글