예제
- 영화 데이터를 가지고 데이터 선택 , 데이터 조건 , 데이터 변경 등 예제를 수행
import
import pandas as pd
- pandas 를 사용할떄 반드시 라이브러리 를 import 해야 하는 구문이다
- as 를 통해 약어로 표현한것이 pd 이다 -> 이 pd 를 통해 pandas 를 무조건 부를수 있다.
pd.read_csv('file')
df = pd.read_csv('train.csv')
df
- directory 에 있는 위치에 파일 명을 읽어와 DataFrame 으로 바꿔주는 함수이다.
- 이떄 정확한 directory 내 file 명을 읽어와야 한다.
- url 링크도 가능하다.
pd.loc[]
df.loc[0]
df.loc[df['genre'] == '액션' , 'genre']
df.loc[df['genre'] == '액션' , ['genre' , 'director']]
- loc 는 DataFrame 에서 내가 가지고오고 싶은 index 를 가져오는 방법중 하나이다.
- loc 는 특히 조건을 주는 방법으로도 자주 쓰이고 있다.
- loc 안에 조건식을 넣어서 내가 보고 싶은 컬럼만 보일수 있게 할수도 있다.
- 내가 보고 싶은 column 도 리스트 형식으로 전달하여 볼수 있다.
df[start:end]
display(df[index:])
- 해당 index 부터 전부를 보여주는 인덱스 슬라이싱도 가능하다.
- 정확한 슬라이싱은 start ~ end-1 까지의 행의 모든 정보를 리턴해 주는 함수이다.
pd.iloc[row , column]
df.iloc[row , column]
df.iloc[0]
df.iloc[[0,2]]
df.iloc[0:2]
df.iloc[: , 0]
df.iloc[: , [0,2]]
df.iloc[: , 0:2]
- iloc 는 row , column 을 둘다 숫자로 받아 리턴 해주는 방식이다.
df['column']
df['Title']
df[[col1 , col2 , .....]]
- df['column'] 을 통해 원하는 column 만 리턴 해줄수 있다.
- 두개이상의 컬럼을 같이 보고 싶을떄는 리스트 형태로 넣어준다.
df['column'] 조건
df['column'] == True
df['genre'] == '액션'
- 해당 컬럼이 True 인지 False 인지를 리턴을 해준다.
조건식으로 df 출력
df[df['genre'] == '액션']
- df 안에 조건식을 만족하는 모든 행을 리턴 한다.
논리 연산자
df[(df['genre'] == '액션') & (df['genre'] == '코미디')]
- & , | 여러가지 논리 연산자로 행을 리턴하는 방법도 있다.
df['columns'].isnull()
df[df['dir_prev_bfum'].isnull()]
df['columns'].notnull()
df[df['dir_prev_bfum'].notnull()]
- isnull 과 반대로 NaN 이 아닌 값들을 리턴해주는 함수이다.