번호
컬럼 부터 등록일자
컬럼까지ns_df.loc[:, '번호':'등록일자']
# 불리언 배열을 selected_columns에 담는다.
selected_columns = ns_df.columns != 'Unnamed: 13'
ns_book = ns_df.loc[:, selected_columns]
ns_book.head()
ns_book = ns_df.drop(['부가기호', 'Unnamed: 13'], axis = 1)
ns_book.head()
NaN
이 하나 이상 포함된 행이나 열을 삭제how = 'all
모든 값이 NaN인 열 삭제ns_book = ns_df.dropna(axis = 1, how = 'all')
ns_book.head()
==
, >
같다, 크기 비교 등의 조건 가능# 모든 열을 기준으로 중복된 행을 찾는다. (모든 값이 같은 행을 찾는다.
sum(ns_book.duplicated())
# 도서명, 저자, ISBN을 기준으로 중복된 행을 찾음
um(ns_book.duplicated(subset = ['도서명', '저자', 'ISBN']))
keep = False
: 중복된 행을 True로 반환dup_rows = ns_book.duplicated(subset = ['도서명', '저자', 'ISBN'], keep = False)
by
행을 합칠 때 기준이 되는 열 지정groupby()
메서드는 기본적으로 by 매개변수에 지정된 열에 NaN이 포함되어 있으면 해당 행을 삭제한다. dropna()
매개변수를 False로 지정하면 연산할 때 NaN이 있는 행도 포함한다.copy()
데이터 프레임의 복사본을 만든다. copy()
메서드를 사용하지 않으면 업데이트한 데이터프레임이 별도의 메모리 공간에 저장되는지 보장하지 않는다. (원본 데이터가 바뀔 수도 있음)set_index()
지정한 컬럼을 인덱스로 설정한다.update()
다른 데이터프레임을 사용해 원본 데이터프레임의 값을 업데이트reset_index()
new_ns_book4 = data_cleaning('ns_202104.csv')
ns_book4.equals(new_ns_book4)
p. 182의 확인 문제 2번 풀고 인증하기
2. df 데이터프레임에서 'col1' 열의 합을 계산하는 명령으로 올바르지 않은 것은?
4번
1. col1 시리즈의 sum
2. col1만 있는 데이터프레임의 sum
3. col1만 있는 데이터프레임의 sum
4. col3의 sum
p. 219의 확인 문제 5번 풀고 인증하기
5. 다음과 df 데이터프레임에서 df.replace(r'ba.*', 'new', regex = True)의 결과 값은 무엇인가요?
1번