Pandas - 5

CYSSSSSSSSS·2023년 8월 11일
0

판다스

목록 보기
5/7

데이터 프레임 조회

데이터 조회

import pandas 
path = ''

pd.read_csv(path)
  • 시리즈(Series)와 데이터프레임(DataFrame)
    • 데이터프레임 : 2차원 구조
    • 시리즈 : 1차원 구조
      • 데이터프레임에서 열 하나를 띄어 내면 시리즈!
  • 시리즈 를 조회할때는 DataFrame.column 이름 / DataFrame['columnname']
  • 데이터 프레임으로 조회 할때는 DataFrame[['columnname']] -> 이떄는 항상 dataFrame이다.

조건 조회 .loc[행조건 , 열이름]

  • 조건문의 형태 -> 조건에 만족하는 데이터만 조회

  • 열이름은 생략이 가능하다.

  • 열 이름 1개 -> 시리즈

  • 열 이름을 여러개 -> 데이터 프레임

data[DistanceFromehome] > 10 
  • 하나의 조건은 True / False 만 나온다.
data.loc[data['DistanceFromHome'] > 10]

  • 10보다 큰수만 가져온것이다.

여러 조건 조회

  • 여러 조건은 항상 &(and) 와 |(or) 연산을 통해서 값을 추출해야 한다.
#and 로 조건 연결
# distancefromhome 값이 10 초과 이고 jobsarisfaction 의 값이 4인 행을 추출한다.
data.loc[(data[DistanceFromHome]> 10) & (data['JobSarisfaction'] == 4) ]
#or로 조건 연결
# distancefromhome 값이 10 초과 이거나 jobsarisfaction 의 값이 4인 행을 추출한다.
data.loc[(data[DistanceFromHome] > 10) | (data['JobSatisfaction'] == 4)]

isin() , between()

  • isin 은 컬럼의 값중에 그값이 존재하는지 여부
  • between 은 컬럼이 그 서이에 존재 하는지 여부
#isin
#'JonSatisfation 칼럼들의 갑중에 1 or 4 의 값이 존재하면 행을 가져온다.'
data.loc[data['JobSatisfaction'].isin([1,4])]
#between
#'Age' 의 값이 25이상 크고 30이하 작은 행을 리턴 
data.loc[data['Age'].between(25,30)]
  • between 은 inclusive 라는 옵션으로 끝값을 포함 시킬거냐 포함시키지 않을거냐를 결정하는 옵션
  • inclusive = 'both' (기본값)
  • 'left', 'right', 'neither'

조건의 만족하는 행의 일부 열 조회

  • df.loc[조건, ['열 이름1', '열 이름2',...]] 형태로 조회할 열을 리스트로 지정합니다. ==> 2차원, 데이터프레임형태로 조회
# MonthlyIncome 컬럼이 10000보다 큰 행의 age 컬럼을 가져온다
data.loc[data['MonthlyIncome'] >= 10000 , ['Age']]
  • 즉 조건의 컬럼과 가져오는 컬럼은 같아도 되고 달라도 된다.
# MonthlyIncome 이 10000보다 크고 3개의 컬럼을 리턴한다.
data.loc[data['MonthlyIncome'] >= 10000 , ['Age', 'MaritalStatus', 'TotalWorkingYears']]
profile
개발자 되고 싶어요

0개의 댓글

관련 채용 정보