칼럼명 이용해서 원하는 칼럼의 Series를 가져올 수 있다.
df["column 명"] df['column 명']
df[:3]을 이용하면 행만 결정해서 DataFrame을 가져올 수 있다.
# 위와 같은 방식으로 적으면 행을 결정해주는 것이다.
이름을 이용해서 원하는 값을 찾을 수 있다.
주의할 점은 시작과 끝이 모두 포함된다. 지금까지 배운 것의 예외인 부분이다.df.loc[이름:이름, 이름:이름] df.loc[이름:이름, [이름,이름]] # 이런식으로 적어주면서 원하는 값 찾아내기
⭐ loc이 많이 쓰이는 것 같다. Boolean Indexing과 isin에도 쓰이고, 결측치를 제거하는 경우에도 사용된다.
인덱스를 이용해서 원하는 값을 찾을 수 있다.
지금까지 배웠던 인덱스를 생각하면 된다.df.iloc[인덱스:인덱스, 인덱스:인덱스] df.iloc[인덱스:인덱스, [인덱스,인덱스]] # 이런식으로 적어주면서 원하는 값 찾아내기
Boolean Index 로 받은 Index 를 활용해서 True인 값만 색인해 낼 수 있다. 즉, 조건에 맞는 DataFrame만 불러오는 것이다.
- 조건에 맞는 데이터만 불러오기.
df[df['column']>조건] # 조건에 맞는 df의 데이터만 가져온다
- 조건에 맞는 데이터만 불러오기 + 특정 칼럼 선택하기.
⭐ sol) loc 이용하기.df.loc[df['column']>조건, '특정 column'] # 1개의 칼럼 가져오기 df.loc[df['column']>조건, ['특정 column1','특정 column2']] # fancy indexing을 통해서 2개 이상의 칼럼 가져오기 df.loc[df['column']>조건, '특정 column1':'특정 column6'] # 어디에서 어디까지의 특정 칼럼 가져오기
내가 조건을 걸고자 하는 값이 내가 정의한 list에 있을 때만 색인하려는 경우에 사용한다.
변수 = [내가 원하는 값을 리스트로 나타내기] df['column명'].isin(변수) # 이 값을 DataFrame의 행을 색인하는데에 사용하기 df.loc[df['column명'].isin(변수)] # 여기서 특정 칼럼을 색인하고 싶으면, 원하는 칼럼명 지정하기 df.loc[df['column명'].isin(변수), '원하는 칼럼명'] df.loc[df['column명'].isin(변수), ['원하는 칼럼명','원하는 칼럼명']] df.loc[df['column명'].isin(변수), '원하는 칼럼명':'원하는 칼럼명']
- info( )를 이용해서 어디에서 빠진 데이터가 있는지 알 수 있다.
- 결측치 값을 알아내는 방법
df.isna() df.isnull() df['칼럼명'].isna() df['칼럼명'].isnull()
- ⭐ 결측치 값을 제외한 모든 데이터를 가져오는 방법
df.notnull() df['칼럼명'].notnull() df.loc[df['칼럼명'].notnull()] df['칼럼명'].loc[df['칼럼명'].notnull()] df['칼럼명'].loc[df['칼럼명'].notnull(), '칼럼명']
DataFrame의 값을 색인하는 방법은 잘 알아두어야 하고, 특히 loc을 많이 쓰는거 같으니까 염두해두자. 자주 이용하고, 까먹지 않기~! 그리고 꼭 누락되는 값이 있을 수도 있기 때문에 꼭 그런 것들은 제거해준 뒤에 데이터 분석을 해주기.